交钱！StackOverflow：类ChatGPT们用我数据训练得付费

十三 2023-04-23 19:23:25 来源：量子位

怎么收费？学马斯克

金磊发自凹非寺

量子位 | 公众号 QbitAI

ChatGPT，遭到了一波反向收费。

而管OpenAI要钱的，正是全球最大程序员问答网站StackOverflow。

理由是这样的：

你们拿我家的数据去训练AI了。

无独有偶，在StackOverflow之前，Reddit近日也发出了类似的信号——计划开始向访问其API的公司收费。

Reddit老板给出的理由更是直白：

我们的数据非常有价值，不想免费提供给科技巨头们。

不得不说，这波围绕类ChatGPT展开的“商战”着实有点意思。

不过围观的网友们就不那么乐观了：

唯一没有获利的……好像就是用户了。

科技巨头们要为训练数据买单了

我们都知道，训练一个像诸如ChatGPT这样的AI，背后定然需要海量的数据。

无论是OpenAI、谷歌、微软、Meta或是其它公司都是如此。

但这些科技巨头们一般获取这些数据的方式都是从网上抓取，也因此不会给对应数据背后的公司掏钱。

他们所获取的数据来源，就包括了StackOverflow、Reddit在内的数千个在线“资源”。

然后科技巨头们就会将这些数据“喂”给大模型，让对话AI变得更聪明、更智能。

待产品们成熟可以“上岗”之后，科技巨头们就会开启付费模式，例如我们熟知的ChatGPT Plus、GitHub Copilot等等。

但在这么一个过程中，像StackOverflow和Reddit这样的网站，就有点惨了。

首先，就是我们刚才提到的，这些AI拿着他们家的数据做训练，变得更强更优秀。

其次，这些AI的诞生似乎对于它们来说并没有太大的益处，反倒可能会变成非常有竞争力的对手。

于是乎，Reddit就率先不干了，CEO Steve Huffman直接撂下狠话：

想白嫖，没门！得交钱。

而后StackOverflow的CEO Prashanth Chandrasekar也公开赞成Reddit的做法。

不仅如此，他还认为这些大语言模型（LLM）的开发人员还违反了自家网站用户们的权益。

因为在StackOverflow条款中有这样的明确规定：

用户拥有他们在Stack Overflow上发布内容的所有权，但所有内容均受知识共享许可的约束，该许可要求以后使用这些数据的任何人都说明其来源。

Chandrasekar认为，日后科技巨头们拿着自家的类ChatGPT的产品去出售的时候，开发人员是解释不清用了StackOverflow哪些用户的问答去训练的模型：

因此，他们违反了知识共享许可。

据了解，StackOverflow和Reddit目前都没有对数据收费做明确的公示，而且价格也没有定下来。

但另一方面，各种大语言模型背后的企业，也正在努力降低开发的成本。

将来若是训练数据都要收费了……那这部分成本又将会有谁来买单呢？

反正Reddit CEO的表态是：

爬取Reddit数据产生了价值，却不将任何价值返还给我们的用户，这是个问题。

会怎么收费？

虽然目前StackOverflow和Reddit都没有明确训练数据的价格，但有媒体猜测，他们可能会借鉴马斯克推特的“定价路线”。

例如在这个月，马斯克就提高了访问推特数据的价格——42000美元/5000万条推文。

更戏剧性的是，马斯克前一阵子还以“OpenAI非法使用推特数据训练”为由，准备起诉OpenAI。

而不仅是文字领域，在图片生成领域，因训练数据而产生的纠纷也是屡见不鲜。

例如Getty Image就在此前起诉了OpenAI的对手Stability AI。

理由是涉嫌使用超过1200万张照片且之前没有寻求过许可。

……

至于像StackOverflow和Reddit最终将如何定价，还需要等待他们官方的表态。

但值得明确的一点是，随着这一波AIGC热潮的到来，其背后的各种“规矩”，是值得深入探讨、商定了。

参考链接：
[1]https://www.wired.com/story/stack-overflow-will-charge-ai-giants-for-training-data/
[2]https://qz.com/reddit-ai-bots-training-payment-1850352526
[3]https://twitter.com/ruchowdh/status/1649168431063736320

十三

交钱！StackOverflow：类ChatGPT们用我数据训练得付费

科技巨头们要为训练数据买单了

会怎么收费？

相关阅读

ChatGPT被起诉索赔30亿！「未经允许收集并泄露个人信息」，16人匿名状告OpenAI

「ChatGPT克星」升级：老师可以把全班作业丢进去检测了！华人作者：免费用

用“大白话”精准搜图，OpenAI的CLIP惊艳了所有人 | 在线可玩

字节GPT账户突遭冻结，OpenAI：正在调查不当行为

知乎大模型「知海图AI」上线！产品官宣即内测，为4亿用户摘取「热榜摘要」

传下去，这个地方上ChatGPT黑名单了

热门文章

全栈AI基础设施支撑，跑出全球首个开放使用视频生成DiT模型

数学家们仍在追赶天才拉马努金

7×24小时非人类科学家入场：当AI开始自主探索科学未知领域 | 多伦多大学

人人可用的超级智能体！100+MCP工具随便选，爬虫小红书效果惊艳

蔚来李斌：一年减少了数十亿英伟达芯片采购