word2vec作者曝与Ilya等十年积怨：seq2seq也是我的想法

梦晨 2023-12-18 13:53:26 来源：量子位

深度学习社区迅速变成某种权力的游戏

梦晨发自凹非寺
量子位 | 公众号 QbitAI

里程碑式论文word2vec获得NeurIPS时间检验奖，可谓实至名归。

但一作Tomas Mikolov在Facebook上发表的长篇获奖感言，却充满了失望和不满。

论文最初被ICLR拒稿都算小事了，他还暗讽了OpenAI首席科学家Ilya Sutskever（当时两人都在谷歌）：

我们当然生活在激动人心的时代，但不要对那些“想要垄断基于数十上百位科学家辛勤工作的技术、同时声称这一切都是为了人类利益的人”抱有太多信心。

Mikolov话中所指的是word2vec之后又一个里程碑式研究seq2seq，发表于2014年，不出意外的话也将会获得2024年的NeurIPS时间检验奖。

Tomas Mikolov声称seq2seq的想法最初来自于他，在谷歌大脑工作期间与Quoc Le和Ilya有过多次讨论。

但他跳槽到Facebook后，很惊讶看到最终发表的成果中自己没有成为共同作者。

这正是金钱大量流入AI领域的时候，每个想法都价值连城。

看到深度学习社区迅速变成某种权力的游戏，我很悲哀。金钱和权力确实会腐蚀人心……

从word2vec到seq2seq

最初word2vec论文投稿到首届ICLR会议（当时还只是一个workshop），尽管接受率高达70%，但还是被据搞了。

这让Mikolov感慨，审稿人想要预测一篇论文未来的影响是多么困难。

不少研究者都有同感，如今在大模型与AI绘画都大量应用的LoRA作者微软Weizhu Chen透露，当初第一次投稿时也被拒了，因为审稿人认为太简单。

大多数真正有效的事情往往都是简单而优雅的。

Mikolov这些年听到了很多对word2vec的评论，正面负面都有，但并没有真正在网络上回应过。

不知何故，研究界不断被某些人的公关式宣传淹没，他们用这种方式博取引用数和别人的注意力，我不想成为其中一份子。

借着这次获奖加10周年的机会，Mikolov分享了一些这篇经典论文的背后故事。

首先是很多人抱怨word2vec的代码很难理解，甚至有人以为Mikolov是故意让大家看不懂的。

现在他澄清了“不，我还没那么邪恶”，只是在等待被批准发布代码的几个月中试图让它更短、更快，最终代码被过度优化了。

现在回想起来，如果谷歌大脑团队中没有Greg Corrado和Jeff Dean，我怀疑是否会获得批准——我认为word2vec可能是谷歌开源的第一个广为人知的AI项目。

尽管word2vec是Mikolov被引用次数最高的论文，但他却从未认为这是自己最有影响力的项目。

实际上word2vec最初是他的RNNLM项目中一个子集，这个项目很快被人们遗忘了。

在我看来，它至少和AlexNet一样具有颠覆性。

RNNLM开始于2010年，深度学习还处在黑暗时代，Mikolov列举了其中首次展示的想法：

循环神经网络的可扩展训练，他提出了梯度裁剪（Gradient Clipping）
神经语言模型首次生成文本，他从2007年开始就展示这样的例子
动态评估
字符和子词级的神经语言建模
神经语言模型适应，现在被称为微调
第一个公开可用的语言模型评测基准，也就是修改后的Penn Treebank数据集

2012年，Mikolov从捷克布尔诺理工大学博士毕业后加入了谷歌大脑。

他表示自己很幸运，那里有大量神经网络的信徒，允许自己研究word2vec、展示其潜力，但他不想给人们留下一切都很完美的印象。

在word2vec之后，Mikolov想通过改进谷歌翻译来普及神经语言模型。开始与Franz Och的团队合作，期间提出了几个可以补充甚至取代当时机器翻译的模型。

核心想法在他加入谷歌大脑之前就已经提出，也就是在不同语言句子对上训练，然后使用生成模型翻译看到的第一句话。

当时在短句子上效果很好，较长句子效果还不佳。他与谷歌大脑中的其他人（主要是Quoc Le和Ilya Sutskever）多次讨论过这个项目，他们在自己跳槽到Facebook后接手。

当他们最终以现在著名的“seq2seq”发表我的想法时，我感到非常惊讶，不仅没有提到我作为合著者，而且我的老朋友们也忘记在论文致谢部分提到我，他们感谢了谷歌大脑中除了我之外的每一个人。

……

大家看到Mikolov的长篇感言，也是百感交集。

康奈尔大学助理教授Volodymyr Kuleshov借word2vec被拒稿的故事，鼓励大家不要因论文同行评议过程而灰心，“好的想法终会得到应有的认可”。

也有人认为，Mikolov指出的贡献分配、引用数量和影响力等问题，不光是NLP的问题，而是整个AI领域都存在。

参考链接：
[1]https://www.facebook.com/tomas.mikolov/posts/pfbid0avhBpB2WULd3KNtAieyiDCFpP9MQggxW1xSh6RXZDjWF6sGzgpYa638KMAyF75JSl
[2]https://twitter.com/AravSrinivas/status/1736090919718605169
[3]https://www.fit.vutbr.cz/~imikolov/rnnlm/

NeurIPS word2vec

梦晨

word2vec作者曝与Ilya等十年积怨：seq2seq也是我的想法

从word2vec到seq2seq

相关阅读

华人团队用大模型实现“读心术”：大脑活动直接变文字 | NeurIPS 2023

NeurIPS 2019投稿规则大变化！必须回答研究可复现问题，倡导提交论文代码

蚂蚁集团开源大规模全链路因果学习系统OpenASCE

NeurIPS'22杰出论文奖：3项研究出自华人团队，AlexNet获时间检验奖

又是加拿大！连年拒签NeurIPS参会者被指太荒唐，Hinton亲自过问也没辙

GPT-3获NeurIPS 2020最佳论文奖，苹果华人学者获经典论文奖

热门文章

又一开源AI神器！将机器学习论文自动转为可运行代码库

全栈AI基础设施支撑，跑出全球首个开放使用视频生成DiT模型

人人可用的超级智能体！100+MCP工具随便选，爬虫小红书效果惊艳

Qwen3真香！通义App满血接入，一手实测在此

当购物用上大模型！阿里妈妈首发世界知识大模型，破解推荐难题