英语和汉语谁更高效?17大主流语言测试结果:没有优劣之分,带宽都是每秒39bit
晓查 发自 凹非寺
量子位 出品 | 公众号 QbitAI
哪种语言是世界上最高效的语言?这个问题一直争论不休,也难以量化。
首先,不同语种的说话速度差异很大。有研究证明,意大利人语速最快,每秒能说9个音节;而德国人语速最慢,每秒只能说5~6个音节。
那么是否较快的语言就能带来更高的沟通效率呢?
实际并非如此,因为不同语言的编码策略不同,有些语言虽然语速慢,但是每个音节中包含信息量也更大。
来自里昂大学、香港大学等高校的学者们,在研究了17种形态各异的语言后发现,即使语速差异巨大,各种语音的都具有相同的传输速率——每秒39比特。
里昂大学的这篇论文给出了语音转文字时的带宽极限,将会给今后TTS的研究带来启发。为何人脑和计算机处理一个传输速率极慢的信息时差距如此之大,神经科学的研究或许将给未来NLP带来新的思路。
目前这项研究成果发表在《科学》杂志子刊ScienceAdvances上。
语速和信息密度成反比
研究语音的“带宽”,即信息速率,最核心的问题是计算不同语言单音节的信息量。早在1951年,信息论创始人香农就已经开始研究英语书面文字的信息熵问题。
关于不同语言发音信息量对比的研究已经持续数年,里昂大学早在2011年就发表论文,统计了世界上几种主流语言的信息密度和语速,最后将二者相乘算出传输速率。
最近,他们把研究的范围扩展到9个语系17种语言,包括越南语、英语、德语、意大利语、法语、日语、韩语、汉语普通话、粤语等等。
研究人员收集了上述17种语言的170名当地成年人的录音,每个语言都以正常速率阅读一组语义相似的标准化的文本,总共大约24万个音节。如此全面地统计研究17种主流语言的信息密度,这还是第一次。
演讲者通过在录制之前会多次阅读熟悉这些文本,来帮助他们理解内容并最大限度地减少阅读错误。
研究人员发现,日语只有643个音节,每个音节的信息密度约为5比特;英语的音节数量为6949,每个音节的密度为7比特;越南语最为复杂,平均每个音节包含8比特的信息,排在所有语言之首。
经过统计,他们得出结论:信息速率(IR)的平均值为39.15bit/s,标准差为5.10bit/s,音节速率(SR)的平均值为6.63音节/s,标准差为1.15音节/s。
但是音节信息密度越高的语言,其语速也就越慢。
然后,他们对比了17种语言每个音节的信息密度(ID)和音节速率(SR)的关系,二者呈高度的负相关关系,相关系数达-0.89。
大脑限制了语言速率
里昂大学的语言学家François Pellegrino说:“由于语言科学长期关注语法复杂性等问题,这种信息传输速率被忽略了。”
他补充说,这篇论文给出的结论就是:
尽管语言的编码策略差异很大,但在提供信息时,没有哪一种语言比另一种语言更高效。
信息密度更高的语言语速可以再提高语速加快传输吗,为何世界上那么多语言都有着相同的传输速率?
这是因为语音受到了大脑处理瓶颈的限制。最近的一篇神经科学论文提出,在美式英语中人类听觉上限是每秒9个音节。
这也解释了提高语言的速率并不能显著提高传输速率,一般人可以听录音大约只能加速到120%,这是限制语音传输速率的瓶颈所在。
传送门
关于语言信息率的研究:
http://www.ddl.ish-lyon.cnrs.fr/fulltext/pellegrino/Pellegrino_to%20appear_Language.pdf
不同语言具有相似的编码效率:
https://advances.sciencemag.org/content/5/9/eaaw2594
- 脑机接口走向现实,11张PPT看懂中国脑机接口产业现状|量子位智库2021-08-10
- 张朝阳开课手推E=mc²,李永乐现场狂做笔记2022-03-11
- 阿里数学竞赛可以报名了!奖金增加到400万元,题目面向大众公开征集2022-03-14
- 英伟达遭黑客最后通牒:今天必须开源GPU驱动,否则公布1TB机密数据2022-03-05