意念实时转语音！Facebook的非植入式脑机接口，解码准确率达76%

安妮 2019-07-31 13:03:47 来源：量子位

不用植入电极了

铜灵发自凹非寺

量子位出品 | 公众号 QbitAI

今天，加州大学旧金山分校（UCSF）和Facebook在Nature Commuications上发表的一项研究显示：

他们在“非植入式”的穿戴设备上取得了最新进展，构建出了一个大脑-计算机系统，能准确解码佩戴设备的人听到和说出词语和对话，实时从大脑信号中解码。

也就是说，在这种脑机接口面前，你的所思所想已无处遁形，Facebook已经让意念打字成为了现实。

此前，马斯克的脑机接口公司Neuralink也发布过脑机接口系统，但这种植入式的设备需要向大脑中植入3000多个电极，以此来检测神经元的活动，但非植入式的设备就免去了复杂的植入步骤。

研究人员表示，目前对生成和感知的两部分语言进行解码，准确率超出了他们的想象，分别能达到61%和76%的准确率。

这项项目对于正常人和残疾人来说，都具有实用意义。

比如，你可以将思维直连到语音助手siri，查询天气、搜索信息不用直接喊出来了。

研究人员之一、加州大学旧金山分校神经外科医生Edward Chang表示，这是向神经植入物迈出的重要一步，因为中风，脊髓损伤或其他疾病而失去说话能力的患者，有望因此获得自然交流的能力。

如何意念转语音

这项成果来自Facebook Reality Labs，一直与加州大学旧金山分校合作开展这项脑机接口的研究。

Facebook的设想是，设计一种可以将大脑信号转换成语言的装置，不需要劳动任何一块肌肉，深度学习就能直接读懂大脑，解码脑中所想，实现流畅交流。

为了进行试验，研究人员此前还招募了五名在医院接受癫痫治疗的志愿者。

他们先是从高密度皮层活动中提取相关信号特征。志愿者们说了上百句话，而通过植入性大脑皮层电图（ECoG），研究人员可以跟踪控制语言和发音的大脑区域的活动，并将这些活动与志愿者说话时嘴唇、舌头、喉部和下颚的微妙运动联系起来，然后将这些运动学特征翻译成口语句子。

研究人员采用bLSTM（bidi-rectional long short-term memory）循环神经网络来破译ECoG信号表达的运动学表征。

接着用另外一个bLSTM解码先前破译的运动学特征中的声学特征。

在这个过程中，两个神经网络都会被投喂训练数据，以提高它们的解码性能。

在今年的四月份，利用这样的方法，Facebook已经实现了以每分钟150词的速度帮你说出所思所想。

而在这篇最新的论文Real-time decoding of question-and-answer speech dialogue using human cortical activity中，他们在此前研究基础上，研究人员想进一步提高精度。

大多数语音解码的工作原理是对一个人在想什么声音做出最佳猜测，在解码过程中可能会被“synthesizer”和“fertilizer”这类发音相似的单词混淆。

但Facebook的新系统增加了上下文信息来帮助区分这些单词。

首先，这个算法预测从一组已知问题中听到的问题，比如“你在一块土地上撒了什么?”然后，这些信息作为上下文来帮助预测答案：“肥料”（fertilizer）。

Edward Chang表示，通过添加上下文，这个系统能够用的指定问题和答案解码感知（听到）的语音准确率达到76%，解码产生（口头）的语音准确率达到了61%。

Facebook表示，未来将扩大系统的词汇量，让其能适用在更广泛的领域。

缘起两年前

Facebook早在两年前，就开始着手这个项目了。

2017年4月，Facebook旗下的前沿产品研发团队Building 8负责人Regina Dugan宣布，这家社交网络公司将在未来两年内，开发出一个能以每分钟100字的速度从人脑向外传输语句的“帽子”。

Facebook设想中的“帽子”，是用来分享你的思维的。此前清华大学也做过类似概念的研究，头戴一个小巧的电极帽，控制屏幕软键盘上的26个字母就能打出任何语句。

Facebook最终计划，是想打造一款AR眼镜。

Facebook AR/VR业务副总裁Andrew “Boz” Bosworth表示，这个项目的初衷，是想构建一个非侵入式可穿戴设备，让人们只想通过想象他们想说什么来打字，展示未来对AR眼镜的投入和互动成为现实的潜力。

传送门

Facebook官方博客：

https://tech.fb.com/imagining-a-new-interface-hands-free-communication-without-saying-a-word/

论文Real-time decoding of question-and-answer speech dialogue using human cortical activity

地址：

https://www.nature.com/articles/s41467-019-10994-4

论文Speech synthesis from neural decoding of spoken sentences：

https://www.gwern.net/docs/ai/2019-anumanchipalli.pdf

— 完 —

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ’ᴗ’ ի 追踪AI技术和产品新动态

Facebook 脑机接口

安妮

意念实时转语音！Facebook的非植入式脑机接口，解码准确率达76%

相关阅读

看不惯又干不掉，TikTok是如何在美国击败Facebook的

浙江小学生戴上“金箍”：售价3千5的脑机接口头环，实时监测上课走神，自动报送老师家长

只需399美元，就能用意念控制电子设备，还能玩游戏：这台脑机接口亮相CES 2020

Facebook建立了一个聊天机器人，帮助员工在假期处理批评言论

年轻人苦睡眠久矣！这项黑科技躺着就把问题解决了

《原神》米哈游突然押注脑机接口，CEO：10年内造出10亿人生活的虚拟世界

热门文章

GPT-4o掀起“吉卜力风”，连CEO奥特曼也换了头像！版权争议虽迟但到

自动驾驶首次应用测试时计算！港大英伟达等新技术让AI边开边学，无人车遇变道自如应对

“计算机视觉被GPT-4o终结了”（狗头）

AI Agent来，传统BI危

3D版DeepSeek卷起开源月：两大基础模型率先SOTA！又是VAST