“关于word2vec都是错的”：论文和代码天壤之别，是普遍现象了？

栗子 2019-06-07 13:12:55 来源：量子位

在他看来，论文里的算法解释，和代码实现一比，讲的根本是两回事。

栗子发自凹非寺

量子位出品 | 公众号 QbitAI

word2vec是谷歌2013年开源的语言工具。

两层网络，就能把词变成向量，在NLP领域举足轻重，是许多功能实现的基础。

可是现在，有一位叫做bollu (简称菠萝) 的程序员，大声对世界说：

“关于word2vec，你所知道的一切都是错的。”

在他看来，论文里的算法解释，和代码实现一比，讲的根本是两回事。

是不是只要开源了代码，论文写不写清楚都没关系？

一番仔细的论述，引起了许多人的讨论和共鸣，不出半日Hacker News热度已近300点：

那么，菠萝的世界观是怎样崩塌的，他眼里真实的word2vec是什么样子呢？

不一样的天空

word2vec有种经典解释 (在Skip-Gram里、带负采样的那种) ，论文和数不胜数的博客都是这样写的：

只能看出有两个向量。

可程序员说，看了word2vec最原本的C语言实现代码，就会发现完全不一样。

(多数用word2vec做词嵌入的人类，要么是直接调用C实现，要么是调用gensim实现。gensim是从C实现上翻译过来的，连变量的名字都不变。)

C实现长这样

每个单词有两个向量，分别有不同的角色：

一个表示这个词作为中心词 (Focus Word) 时的样子。

一个表示它作为另一个中心词的上下文 (Context Word) 时的样子。

菠萝说：耳熟吧，GloVe就是借用了这里的思路，只是没有谁明确说出来而已。

在C语言的源代码里，设定已经非常完好，这些向量由两个数组 (Array) 分别负责：

syn0数组，负责某个词作为中心词时的向量。是随机初始化的。

syn1neg数组，负责这个词作为上下文时的向量。是零初始化的。

https://github.com/tmikolov/word2vec/blob/20c129af10659f7c50e86e3be406df663beff438/word2vec.c#L369
for (a = 0; a < vocab_size; a++) for (b = 0; b < layer1_size; b++) {
next_random = next_random * (unsigned long long)25214903917 + 11;
syn0[a * layer1_size + b] = 
 (((next_random & 0xFFFF) / (real)65536) - 0.5) / layer1_size;
 }

训练的话，要先选出一个中心词。在正、负样本训练的时候，这个中心词就保持不变 (Constant) 了。

中心词向量的梯度 (Gradients) ，会在缓冲器 (Buffer) 里累积起来。经过正、负样本的作用之后，这些梯度会被应用到中心词上：

1if (negative > 0) for (d = 0; d < negative + 1; d++) {
 2 // if we are performing negative sampling, in the 1st iteration,
 3 // pick a word from the context and set the dot product target to 1
 4 if (d == 0) {
 5 target = word;
 6 label = 1;
 7 } else {
 8 // for all other iterations, pick a word randomly and set the dot
 9 //product target to 0
10 next_random = next_random * (unsigned long long)25214903917 + 11;
11 target = table[(next_random >> 16) % table_size];
12 if (target == 0) target = next_random % (vocab_size - 1) + 1;
13 if (target == word) continue;
14 label = 0;
15 }
16 l2 = target * layer1_size;
17 f = 0;
18
19 // find dot product of original vector with negative sample vector
20 // store in f
21 for (c = 0; c < layer1_size; c++) f += syn0[c + l1] * syn1neg[c + l2];
22
23 // set g = sigmoid(f) (roughly, the actual formula is slightly more complex)
24 if (f > MAX_EXP) g = (label - 1) * alpha;
25 else if (f < -MAX_EXP) g = (label - 0) * alpha;
26 else g = (label - expTable[(int)((f + MAX_EXP) * (EXP_TABLE_SIZE / MAX_EXP / 2))]) * alpha;
27
28 // 1. update the vector syn1neg,
29 // 2. DO NOT UPDATE syn0
30 // 3. STORE THE syn0 gradient in a temporary buffer neu1e
31 for (c = 0; c < layer1_size; c++) neu1e[c] += g * syn1neg[c + l2];
32 for (c = 0; c < layer1_size; c++) syn1neg[c + l2] += g * syn0[c + l1];
33}
34// Finally, after all samples, update syn1 from neu1e
35https://github.com/tmikolov/word2vec/blob/20c129af10659f7c50e86e3be406df663beff438/word2vec.c#L541
36// Learn weights input -> hidden
37for (c = 0; c < layer1_size; c++) syn0[c + l1] += neu1e[c];

那么问题来了，为什么是随机初始化，为什么是零初始化？

关于初始化

这些东西，也没见论文和博客里讲过，菠萝只能自己推测了一下：

因为负样本 (Negative Sample) 来自全文上下，并没太根据词频来定权重，这样选哪个单词都可以，通常这个词的向量还没经过多少训练。

而如果这个向量已经有了一个值，那么它就可以随意移动 (Move Randomly) 中心词了。

解决方法是，把所有负样本设为零，这样依赖只有那些比较高频出现的向量，才会影响到另外一个向量的表征。

程序员说，如果是这样，真的很巧妙。他也从来没想过，初始化策略能有这么重要，读论文也看不出。

直接看代码，不相信论文了

在这之前，菠萝已经花了两个月来复现word2vec，也读了无数文章，就是不成功。

不管试了多少次，还是得不到论文说的分数。又不能认为分数是论文作者编的。

最后，他决定去仔细读源代码。初读还以为打开方式错了，因为和之前看过的资料都不一样：

我不明白，为什么原始论文和网上的博客，都不去写word2vec真正是怎么工作的。所以就想自己写出来。

也是在这个过程中，他才像上文提到的那样，发现GloVe给上下文 (Context) 一个单独的向量这种做法，是从word2vec那里来的。

而GloVe的作者并没有提到过这一点。

想到这里，程序员又有了新的质疑：

这样不算学术不诚实 (Academic Dishonesty) 么？我也不知道算不算，但觉得至少是个很严重的问题。

伤感之余，菠萝作出了一个机智的决定：以后先不看论文对算法的解释，直接去读源代码。

都是这种习惯么？

探讨起论文和实现不一致的情况，一个用编译器读了40年论文的资深程序员 (DannyBee) ，占据了Hacker News评论区的顶楼。

他细数了这些年来，论文作者的习惯变化：

早期许多算法的实现，原理都和描述相符，性能也和描述相符。只是论文会用伪代码 (Pseudocode) ，用伪代码的部分，和实现的差别到底在哪，也会详细说明。后来，人们便开始走远了。有些论文的算法，要么是工作原理不像描述那样，要么是效率低到没法用。看源码的时候也会发现，不是论文说的那回事。SSAPRE就是一个典型。时至今日，大家读起它的论文还是会觉得难懂。把源码放进Open64编译器去读，也发现和论文大相径庭 (Wildly Different) 。再后来，有了github这类社区，事情好像又朝着早期的健康方向发展了。在这样的环境里，word2vec算个反例吧，可能他们觉得已经把代码开源了，论文里写不清也没关系。

紧接着，楼下便有人 (nullwasamistake) 表示，反例不止这一个：

我在实现一个哈希表排序算法的时候，发现一篇近期的论文也有类似的问题。论文里从来没提到过，表格尺寸必须是2的n次方。而这篇研究的全部意义，似乎就是比现有的其他算法，内存效率更高。我做了2/3才发现，根本没有比现有方法更高效，反而更差了，除非把表的尺寸调成2^n。虽然不是彻头彻尾的骗人，但这个疏漏算是很有创意了。

不过，当有人劝ta把那篇论文挂出来，这位吐槽的网友也实诚地表示：

现在批评科技巨头有风险，以后可能还想去工作呢。

由此观之，菠萝是个有勇气的少年。

传送门

菠萝对word2vec的完整意见发表在github上，有兴趣可前去观赏：

https://github.com/bollu/bollu.github.io

另外，还有Hacker News评论区，便于寻找更多同感：

https://news.ycombinator.com/item?id=20089515

— 完 —

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ’ᴗ’ ի 追踪AI技术和产品新动态

机器学习

栗子

马云正式卸任后，阿里巴巴开盘跌0.87%2019-09-10
AI独角兽云知声，已完成一期科创板IPO辅导2019-10-17
亚马逊在华拓展云计算团队，挑战阿里巴巴和腾讯2019-10-16
IDC：今年上半年中国公有云服务市场规模达54.2亿美元2019-11-07

“关于word2vec都是错的”：论文和代码天壤之别，是普遍现象了？

相关阅读

变身抓重点小能手：机器学习中的文本摘要入门指南 | 资源

龙妈非主角？AI告诉你下一个谁便当：机器学习解读《冰与火之歌》

推特800赞，DeepMind强化学习综述：她可以很快，但快从慢中来

《我的世界》AI大战降临：6000万帧超大数据集已发布，NeurIPS 19向你约战

比Keras更好用的机器学习“模型包”：无需预处理，0代码上手做模型

深挖之后吓一跳，谷歌AI专利何止一个dropout，至少30项今日生效

热门文章

英伟达含量为零！华为密集模型性能比肩DeepSeek-R1，纯昇腾集群训练

联想百应智能体入选量子位“2025年值得关注的AIGC产品”：国内首个AI服务智能体打破中小企业AI落地困局

最强视觉生成模型获马斯克连夜关注，吉卜力风格转绘不再需要GPT了

GPT-4.1淘汰了4.5！全系列百万上下文，主打一个性价比

DeepSeek引爆「万物皆可AI」时代，20余位大咖分析行业痛点，万字梳理干货在此