意念打字登Nature封面!每分钟写90个字符,准确率超99%
斯坦福大学出品
杨净 梦晨 发自 凹非寺
量子位 报道 | 公众号 QbitAI
万万没想到,脑机接口这么快就有了重大突破!
甚至还登上了Nature封面。
一位截瘫患者,正在用“意念”打出一段话,0.5秒左右就能输出一个字母。
准确率也十分惊人,高达99.1%。
他所需要做的,只是在脑中将字母“手写”出来,然后系统就会自动识别生成字母,一分钟可写90个字符。
这幅字虽然写的不咋地,但起码受到了Nature的“青睐”。
值得一提的是,在此之前,这位患者在另一个测试项目中,尝试过“意念”移动光标来打字,不过一分钟只能打出13.4个正确字符 。
此研究一出,就引发学界、网友的巨大关注。
祝贺之余,一位华盛顿大学教授甚至直呼:我打的都比它慢!
RNN立功了
这位代号为T5的老爷子脑中植入的,是两个来自Braingate的电极阵列,各含有96个电极。
实验刚开始就遇到第一个困难:如何识别用户什么时候开始尝试书写字母。
最后发现原本用于语音识别的模型可以完成这个任务。
解决这个问题之后,研究人员发现书写单个字符时观察到的脑部活动相对固定,并且总是集中在一起。
并且书写形状类似的字母比如“b”和“p”时用到的区域是接近的。
看来即使瘫痪多年,运动皮层中笔迹的神经表征也没有消退。
经过人工标注后,这些数据就可以作为原始数据集了。
接下来是算法,研究人员选择了循环神经网络 (Recurrent Neural Network,以下简称RNN)。
与常见的前馈神经网络相比,RNN对数据序列中的每个元素执行相同的任务,计算结果取决于之前的所有结果,所以用循环命名。
RNN更擅长预测连续数据,正适合这次研究的连续书写一个句子。
RNN虽强大但有一个缺点,就是需要大量的数据,否则容易出现过拟合。
这次参与研究的被试就只有老爷子一人,他也不愿意每天花好几个小时大量的进行重复书写提供数据。
不过没关系,还有数据增强 (Data Augmentation)。就是对每个图像数据进行一些微小的改变,旋转一下、缩放一点、或者镜像翻转之类的操作,增加数据的多样性。
除了26个字母以外,输入英文还得有一些必要的标点符号。比如空格,研究人员就要求老爷子用>代替,英文句号只有一个点也不好分辨,用~代替。此外还有逗号、顿号和问号。
不过这次研究没加入数字,可能是研究人员觉得区分z和2有点难,就留待下次解决了。
开始训练时使用的数据只有242个句子,随后每天都增加一些,最终共有572个句子,31,472个字符。
最后,为了解决有的英文字母之间过于相似,研究人员还设计了一套专用于脑机接口的字母表进行测试,准确率会高不少,但有学习成本。
字符准确率最高达99.1%
接着,就到了志愿者测试阶段。
根据屏幕提示,志愿在大脑中一个字母一个字母地复制书写,字符经过识别生成在屏幕上。
结果测试显示,从大脑“手写”字符,到字符在屏幕中出现,中间会有一个延迟,大概在0.4-0.7秒之间。
整体来看,志愿者平均每分钟可以打出18个单词、90个字符,字符错误率仅为5.9%。
经过类似手机自动纠正的预测语言模型之后,他们进一步将字符的准确率提高到99.1%。
单词的错误率也从25.1%降低到3.4%。
此外,志愿者还进行了一番自我创作——不用复制、自己“书写”句子,结果每分钟也可以打出73.8 个字符,经过预测语言模型纠正后,准确率超过了97%。
最后,为了挑战极限,研究人员还训练了一个新的RNN,用户写完整个句子之后再集中处理,这种方法的正确率高达99.83%,不过用户就得不到实时的反馈了。
实际上,这其实是BrainGate项目的一部分。这是一个多机构联盟的项目,包括布朗大学、美国生物技术公司Cyberkinetics,专注于脑机接口技术,致力于恢复神经系统疾病、损伤或丧失肢体的人的交流、行动和独立性。
此前,这个项目实现了脑机接口信号的无线传输,让患者可以离开实验室环境,在家轻松上网看视频。
斯坦福大学霍华德・休斯医学研究所(HHMI)研究员、论文作者之一Krishna Shenoy表示,此次研究最大的创新在于,破译了与手写笔记相关的大脑信号,让截瘫患者快速准确的打字。
论文一作,同样是来自斯坦福大学的Frank Willett博士,他表示会将整个研究的代码和神经数据开源。
目前,它还不是一个完整的、临床的商业系统,毕竟也只在一个人身上进行了测试。
接下来将在更多测试群体、打字功能的拓展(编辑、删除)、扩展字符集(比如大写字母,以及其他语言)等方面进行提升。
是不是可以dream一个汉语?
除此之外,还有一些因素值得讨论,比如成本和风险。
华盛顿大学生物工程系学者Pavithra Rajeswaran、电气和计算机工程系学者Amy Orsborn表示,这项研究仍需要经过试验论证,将电极植入大脑的费用和风险是否合理。
受益的不止瘫痪者
除了瘫痪患者外,也有因其他伤病导致打字困难的人表示很激动!
比如闭锁综合症,因部分神经的损坏导致身体部分机能的退化或消失,虽然意识清醒,但无法通过语言交流。
还有重复性压迫损伤 (RSI),包括因使用鼠标或打字不当产生的鼠标手、腱鞘炎等。
有一位RSI患者说,我还需要一个能够模仿鼠标滚轮的功能,不过网友回复他说你用一个脚踩的踏板或者眼球追踪要比侵入型脑机接口简单多了。
看到这个消息,网友也脑洞大开。
有人发现,想象自己用手写字和直接想象脑海中的轨迹是不一样的感觉,不知道哪个更容易识别。
要不, 你也试试在脑中写字?(手动狗头)
论文链接:
[1]https://www.nature.com/articles/s41586-021-03506-2
参考链接:
[1]https://www.nature.com/articles/d41586-021-00776-8
[2]https://news.ycombinator.com/item?id=27134049
[3]https://twitter.com/WillettNeuro
[4]http://www.wildml.com/2015/09/recurrent-neural-networks-tutorial-part-1-introduction-to-rnns/
- 开源Llama版o1来了,3B小模型反超80B,逆向工程复现OpenAI新Scaling Law2024-12-17
- AI音乐战火升级!三路国产大军全面对决Suno2024-12-11
- o1满血版最鲜测!这¥1500花得值吗?2024-12-06
- 谷歌邀马斯克联手做AI游戏!DeepMind版Sora是个3D游戏引擎 profile-avatar2024-12-05