AlphaFold对手来了：Meta预测6亿“暗物质”蛋白，仅用2周完成

alex 2022-11-02 15:31:06 来源：量子位

蛋白质结构预测AI又进化了

Alex 发自凹非寺

量子位 | 公众号 QbitAI

预测蛋白质结构的AI超级新星AlphaFold，现在遇到了强劲对手。

Meta的蛋白质预测大模型ESMFold，刚刚公布了其最新成果：

6亿多种蛋白结构预测结果，而且还是“蛋白质中的暗物质”——宏基因组蛋白（Metagenomic Proteins）。

宏基因组蛋白，简单来说就是特定时刻下，环境微生物表达的所有蛋白。

它们来自细菌、病毒和其他尚未确定特征的微生物，数量非常庞大。

研究它们不仅有助于发现新的蛋白质结构，还能帮科学家预测并寻到更多微生物，比如RNA病毒等。

要知道，此前AlphaFold背后的公司DeepMind，公布了约2.2亿种蛋白质预测结构，几乎涵盖了DNA数据库中已知生物体的所有蛋白质。

也就是说，ESMFold现在预测出来的结构数量，相当于AlphaFold的3倍左右。

Meta的研究团队还据此成果提出了一个关于元基因组数据库：ESM Metagenomic Atlas，这也是全球首个大规模的元基因组蛋白质结构集合。

这些消息一出，很快便收获了一波关注和惊叹声，Nature还为此发了篇专门的报道。

有意思的是，虽然AlphaFold更早问世，但LeCun曾指出这个思路是他们先提出的：

早在2019年，ESMFold背后的FAIR团队就先提出了使用预训练、基于Transformer的语言模型构想，后来该想法被AlphaFold团队采纳。

除了预测的数量多外，ESMFold还有个明显优势：速度快。

2周预测出6.17亿个蛋白质结构

Meta团队的研究人员表示，用ESMFold预测超过6.17亿个蛋白质的结构，只花了2周时间。

另外，在单个英伟达V100 GPU上，ESMFold可以在14.2秒内对含有384个残基的蛋白质进行预测，比AlphaFold2快6倍。

而对于较短的序列，它甚至比AlphaFold2快了60倍。

如此神速的背后，一个至关重要的因素就是：ESMFold的输入基于Transformer语言模型。

看到这点，你或许会疑惑：预测蛋白质结构的模型，和语言模型有什么关系？

一方面，从数据层面来看，语言和蛋白质结构都具有离散性。

通俗来说，一个合成结构可以拆成单个成分，就像一段话能拆分出单个字词、一个蛋白质能拆分出单个氨基酸；且两个单位之间不存在量的连续性递增或递减关系。

另一方面，上下文和语境制约着某个单词的含义；相似地，蛋白质的结构和功能制约着序列突变方向。

所以，Meta AI受到语言模型启发，提出了ESMFold的基本构想。

基于语言模型的开发出来的ESMFold，主体结构其实和AlphaFold2有不少相似之处——

它也能拆分为四部分：数据解析、编码器、解码器，以及循环部分。

其中，数据解析部分用于输入序列和数据库的解析，为编码器提供输入。

△ESMFold模型结构示意图

巴特！比起AlphaFold 2，ESMFold用于推理的神经网络结构结构被简化了：

ESMFold消除了对明确同源序列（以MSA形式）输入的需求，并且也不用进行Jax图编译，所以可以省下了不少时间。

这样不仅可以大幅缩短大型基因组序列数据库的构建时长；而且能在相同时间内预测出更多结构。

150亿的参数量

除了基于语言模型，还有一点也不容忽视：ESMFold的参数量巨大。

在今年早些时候，Meta AI团队宣布ESMFold模型更新了：

ESM2的参数量直接飙升到150亿，一跃成为迄今为止最大的蛋白质语言模型。（AlphaFold2的参数量为9300万左右）

一般来说，模型的参数量越大，意味它其能运用的函数越多，进而使其学习的准确率和精度大大提升。

这一点在蛋白质结构预测AI上也得到了印证：

ESMFold模型的参数量达150亿之后，其分辨率更高了，能达到原子级别。

其中，对于单序列输入，ESMFold的精度优于AlphaFold2——

通过这个150亿参数的ESM2，ESMFold只用一个序列作为输入，就能有效预测端到端的3D结构；而AlphaFold2则需要多序列输入才能有良好表现。

△单序列输入时，ESMFold预测精度更高

不过在多序列输入的情况下，ESMFold的精度和AlphaFold2相比，还是略有差距。

此外，在蛋白质结构预测的准确性方面，ESMFold和AlphaFold2的表现不相上下。

不过需要说明的一点是，Meta的研究人员也表示，这6亿多个预测出来的蛋白质结构目前还没有被定性，还需后续的核验、分类等。

……

话说这些年，蛋白质预测模型以及其背后的计算生物学可谓方兴未艾，“AI For Science”正在发生。

先前科学家们经过几十年的努力，只覆盖了人类蛋白质序列中17%的氨基酸残基；而AlphaFold在2018年才官宣，至今已经预测出了人类98.5%的蛋白质结构。

至于ESMFold，该研究团队的领导者Alexander Rives指出：

对于蛋白质结构解析和探索未知蛋白质结构，ESMFold都算科学家们的得力助手。

目前ESM2模型的部分代码已在GitHub上免费开源，感兴趣的伙伴们可以去看看！

代码传送门：
https://github.com/facebookresearch/esm
模型传送门：
https://esmatlas.com
参考链接：
[1]https://twitter.com/alexrives/status/1587467124741742593
[2]https://www.nature.com/articles/d41586-022-03539-1
[3]https://twitter.com/alexrives/status/1561693284912828420
[4]https://www.biorxiv.org/content/10.1101/2022.07.20.500902v1.full
[5]https://www.biorxiv.org/content/10.1101/2022.07.20.500902v2

alex

AlphaFold对手来了：Meta预测6亿“暗物质”蛋白，仅用2周完成

2周预测出6.17亿个蛋白质结构

150亿的参数量

相关阅读

U设计周大谈AI时代的设计，不懂点大模型都落伍了

小冰李笛：真正的AI信仰者不该FOMO | MEET 2025

AlphaFold再立功！30天发现CDK20小分子抑制剂，有望成为肝细胞癌创新疗法

大模型集体失智！9.11和9.9哪个大，几乎全翻车了

硅谷凛冬：小扎一夜裁掉11000名员工，亚马逊10000亿美元市值蒸发无踪

DeepSeek V3“报错家门”：我是ChatGPT

热门文章

全栈AI基础设施支撑，跑出全球首个开放使用视频生成DiT模型

数学家们仍在追赶天才拉马努金

7×24小时非人类科学家入场：当AI开始自主探索科学未知领域 | 多伦多大学

人人可用的超级智能体！100+MCP工具随便选，爬虫小红书效果惊艳

蔚来李斌：一年减少了数十亿英伟达芯片采购