0°

交钱!StackOverflow:类ChatGPT们用我数据训练得付费

  ChatGPT,遭到了一波反向收费。

  而管OpenAI要钱的,正是全球最大程序员问答网站StackOverflow。

  理由是这样的:

  你们拿我家的数据去训练AI了。

  无独有偶,在StackOverflow之前,Reddit近日也发出了类似的信号——计划开始向访问其API的公司收费。

  Reddit老板给出的理由更是直白:

  我们的数据非常有价值,不想免费提供给科技巨头们。

  不得不说,这波围绕类ChatGPT展开的“商战”着实有点意思。

  不过围观的网友们就不那么乐观了:

  唯一没有获利的……好像就是用户了。

  科技巨头们要为训练数据买单了

  我们都知道,训练一个像诸如ChatGPT这样的AI,背后定然需要海量的数据。

  无论是OpenAI、谷歌、微软、Meta或是其它公司都是如此。

  但这些科技巨头们一般获取这些数据的方式都是从网上抓取,也因此不会给对应数据背后的公司掏钱。

  他们所获取的数据来源,就包括了StackOverflow、Reddit在内的数千个在线“资源”。

  然后科技巨头们就会将这些数据“喂”给大模型,让对话AI变得更聪明、更智能。

  待产品们成熟可以“上岗”之后,科技巨头们就会开启付费模式,例如我们熟知的ChatGPT Plus、GitHub Copilot等等。

  但在这么一个过程中,像StackOverflow和Reddit这样的网站,就有点惨了。

  首先,就是我们刚才提到的,这些AI拿着他们家的数据做训练,变得更强更优秀。

  其次,这些AI的诞生似乎对于它们来说并没有太大的益处,反倒可能会变成非常有竞争力的对手。

  于是乎,Reddit就率先不干了,CEO Steve Huffman直接撂下狠话:

  想白嫖,没门!得交钱。

  而后StackOverflow的CEO Prashanth Chandrasekar也公开赞成Reddit的做法。

  不仅如此,他还认为这些大语言模型(LLM)的开发人员还违反了自家网站用户们的权益。

  因为在StackOverflow条款中有这样的明确规定:

  用户拥有他们在Stack Overflow上发布内容的所有权,但所有内容均受知识共享许可的约束,该许可要求以后使用这些数据的任何人都说明其来源。

  Chandrasekar认为,日后科技巨头们拿着自家的类ChatGPT的产品去出售的时候,开发人员是解释不清用了StackOverflow哪些用户的问答去训练的模型:

  因此,他们违反了知识共享许可。

  据了解,StackOverflow和Reddit目前都没有对数据收费做明确的公示,而且价格也没有定下来。

  但另一方面,各种大语言模型背后的企业,也正在努力降低开发的成本。

  将来若是训练数据都要收费了……那这部分成本又将会有谁来买单呢?

  反正Reddit CEO的表态是:

  爬取Reddit数据产生了价值,却不将任何价值返还给我们的用户,这是个问题。

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论