AI学语言与人脑极为相似!新研究证明:语言并非人类与生特有的能力,机器也能学丨Nature子刊
网友:乔姆斯基错了?
西风 发自 凹非寺
量子位 | 公众号 QbitAI
人工神经网络(ANN)的学习方式,竟然与人脑极为相似!
你没听错,至少在处理语言这块上,机器似乎更像人了。
先看下面这张图:
蓝色代表的是人的脑电波信号,红色代表的是人工神经网络信号。
而这是人脑和机器听同一个语音时所作出的反应。
是不是非常相似,有木有被惊到?
实际上这张图来源于最近的一项研究,相关论文已被发表在了Nature子刊Scientific reports上。
而此前,关于人的大脑以及机器的大脑是如何进行学习的问题,始终是一个谜。
“神经网络的学习方式是否与人类相同”这个话题,也一直存在争议。
所以到底有什么证据可以证明,人类和机器“很可能是以类似的方式处理语言”?
人工神经网络信号与人脑电波信号非常匹配
为了揭开人工神经网络学习的神秘面纱,加州大学伯克利分校的计算语言学家Gašper Beguš与约翰霍普金斯大学的博士生Alan Zhou、华盛顿大学神经科学家Christina Zhao进行了这项研究。
在这项研究中,他们给人类听一种简单的声音,然后收集人类听到声音后产生的脑电波。同时,将同一种声音输入到神经网络中,分析神经网络所产生的信号。
对两者进行比较,结果竟然出奇地相似。
最重要的是,研究人员测试了适用于各种任务的通用神经元组成的网络,即使是非常通用的网络(对语音或其它声音没有偏见),仍然展现出与人类神经编码的对应关系。
那这项研究具体是怎样进行的呢?
首先,为了更好地对比人类大脑与人工神经网络的反应情况,研究人员分别找来了14名说英语的人和15名说西班牙语的人。
然后对这些人播放了一个单音节音频——“bah”,每次播放8分钟,重复两次。
在播放的过程中,研究人员记录了每个听众脑干中神经元平均电活动的波动情况(脑干是大脑中最先处理声音的部分)。
另外,研究人员将相同的“bah”声音输入到两组不同的神经网络中。其中一组神经网络是经过英语训练的,另一组是经过西班牙语训练的。
研究人员选择的神经网络结构是生成式对抗网络(GAN)。
GAN最早在2014年被提出,用于生成图像。GAN由两个模块组成,分别是判别器(discriminator)和生成器(generator),它们之间相互博弈学习,可以产生更好的输出。
具体来说,生成器创建一个图像或声音的样本,判别器确定它与训练样本的接近程度并提供反馈,导致生成器再次反应,如此循环,直到GAN能够输出期望的结果。
而在这项研究中,判别器最初是在一系列英语或西班牙语的声音上进行训练的。
然后,从未接受过这些声音训练的生成器必须找到一种产生它们的方法。它开始制造随机的声音,经过约40,000次与判别器的交互后,生成器逐渐产生了正确的声音。经过这种训练,判别器也变得更善于区分真实声音以及生成的声音。
在判别器经过训练之后,研究人员就开始播放“bah”的声音。它们测量了判别器人工神经元的平均活动水平的波动,记录了神经网络的处理活动,重点关注了网络中用于分析声音的人工神经元层(以模拟脑干读数)。
将采集到的人脑电波信号与人工神经网络信号进行比较,结果见下图:
△使用英语的实验结果:蓝色是人脑电波,红色是人工神经网络信号(图源:Merrill Sherman/Quanta Magazine)
△使用西班牙语的实验结果:蓝色是人脑电波,橙色是人工神经网络信号(图源:Merrill Sherman/Quanta Magazine)
可以发现,这些人工神经网络信号与人脑电波信号非常匹配!
这也就说明了这两个系统正在进行类似的活动。
此外,这项实验还揭示了人类和机器之间的另一个有趣的相似之处。脑电波显示,说英语和说西班牙语的测试者对“bah”声音有不同的听觉感知(说西班牙语的人更多地听到了“pah”的声音)。
而GAN的信号也显示出了:接受英语训练的网络在处理声音时,与接受西班牙语训练的网络有些不同。
“而这些差异是朝着同一个方向产生的,”Beguš解释道。
说英语的人的脑干对“bah”声音的反应比说西班牙语的人稍微早一些,而受过英语训练的GAN对相同的声音的反应也比受过西班牙语训练的模型稍微早一些。
人类与机器的这种反应时间上的差异几乎是相同的,大约是千分之一秒。
这也为Beguš提供了额外的证据,即人类和人工网络“很可能是以类似的方式处理语言。”
乔姆斯基错了?
这项研究的结论,实际上与上世纪50年代语言学家乔姆斯基(Noam Chomsky)提出的“人类天生就具有理解语言的能力,这种能力与人脑是硬连接(hard-wired)”的观点相违背。
此外,乔姆斯基还提出了普遍语法(Universal Grammar)概念,即人脑普遍有一种语言习得机制,使人们能够学会使用语言。
难道,乔姆斯基的观点是错误的?
对此,有网友表示:
ChatGPT已经证明了学习语言以及理解语言并不需要语法。
也有网友保持怀疑态度:
人脑和神经网络并不是一回事,我们应该对通过研究神经网络的计算时间来研究人脑保持怀疑。
此外,该神经网络已经用人类语言进行了训练,所以这个说法也不能从观察到的时间推断出来。
Beguš则表示:这场辩论尚未结束。
△Gašper Beguš
他表示自己还将进一步探索人脑和神经网络之间的相似之处,例如,他正在测试大脑皮层发出的脑电波(在脑干完成其部分听觉处理后)是否与GAN更深层产生的信号相对应。
他们希望最终能够开发一个可靠的语言习得模型(language-acquisition model),用来描述机器和人类如何学习语言,从而进行在人类实验对象中无法进行的实验。
Beguš研究团队成员,华盛顿大学的神经科学家Christina Zhao表示:
例如,我们可以创造一个不良的环境,比如一个被忽视的婴儿,然后观察是否会导致类似语言障碍的情况。
此外,Beguš还说正在尝试看看这条路能够走多远,通用神经元能够多接近人类语言。
我们能否通过扩大和增强我们的计算架构,让其性能达到与人类相当的水平,或者能够证明这永远是不可能的。
在我们确切知道这个问题之前,还需要做更多的工作。但我们对这些系统的内部运作,对人类和人工神经网络的相似之处,依然感到非常惊讶。
对于人脑与人工神经网络你有什么看法?
传送门:
[1]https://www.nature.com/articles/s41598-023-33384-9(论文链接)
参考链接:
[1]https://www.quantamagazine.org/some-neural-networks-learn-language-like-humans-20230522/
- 英伟达年终核弹!全新B300为o1推理大模型打造,RTX5090也曝光了2024-12-26
- 大规模多构型具身智能新数据集和基准:5.5万条机器人轨迹数据,279项不同任务2024-12-27
- 微软开源视频Tokenizer新SOTA!显著优于Cosmos Tokenizer和Open-Sora2024-12-26
- 时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文2024-12-24