国产AI蛋白质结构预测再现突破,用单条序列解决3D结构,彭健团队:“AlphaFold2以来最后一块拼图补齐了”
AlphaFold2没做到的它做到了
万博 发自 凹非寺
量子位 | 公众号 QbitAI
计算生物领域,出现一则最新进展:
AI预测蛋白质3D结构,仅通过单条蛋白序列就能搞定。
也就是说,AI预测蛋白质结构,可以不需要蛋白质进化过程中的同源信息。一些人工设计的蛋白质药物和工业合成用酶,也可以通过AI预测3D结构,确定其对人体的功能。
达成这一成就的AI算法名为OmegaFold,在最近的全球持续蛋白质预测竞赛中,整体预测能力已经与DeepMind此前开发的AlphaFold2,和华盛顿大学开发的RoseTTAFold不相上下,甚至有些指标优于后两者。
研究成果来自国内AI创新药物公司华深智药,一家成立不到一年的中国初创企业,孵化自张亚勤旗下的清华大学智能产业研究院。
AI预测蛋白质结构不再需要同源信息
据华深智药披露,其最新开发的OmegaFold算法,实现了用单一蛋白质序列预测蛋白质3D结构的能力。
而且在测试准确度上,和AlphaFold2和RoseTTAFold不相上下。
同时在测试速度,快于AlphaFold2和RoseTTAFold。
具体测试过程,是这样的:
研究团队分别对CASP和CAMEO的蛋白质数据集进行了测试,其中CASP数据集有29个蛋白质,CAMEO数据集有146个单链蛋白质。
(PS:这里的CASP和CAMEO,是蛋白质结构预测领域最重要的两项比赛)
作为对比,在测试中,研究团队在上OmegaFold仅输入单一蛋白质序列,对 AlphaFold2和RoseTTAFold,则是在默认模式下输入多重序列(MSA)。
最终,CAMEO数据集测试,OmegaFold预测的蛋白质3D结构,平均局部距离差异测试(LDDT:全球结构预测领域主要评价指标)得分为0.82。
而AlphaFold2与RoseTTAFold的得分,分别是0.75和0.86。
CASP数据集的测试结果,OmegaFold的平均TM分值*(评估蛋白质结构拓扑学相似性的常用指标)为0.79,与AlphaFold2不相上下,不过略低于RoseTTAFold 0.81的分数。
研究团队表示,从结果来看,采用单序列进行预测的OmegaFold,已经整体达到或超越了采用多序列预测的AlphaFold2和RoseTTAFold。
而且,研究团队还发现,因为只采用单一序列预测蛋白质的3D结构,因此在AI算法的训练和预测速度上,也有很大提升,蛋白质结构预测时间,可以被压缩到数秒内。
Helixon团队还同时发现,仅通过氨基酸序列来预测三维结构,不仅减少了同源序列所带来的噪音,还能够提高训练和预测的计算速度,使得蛋白质结构可以在数秒内被预测完毕。
基于此,研究团队用OmegaFold,对两类缺乏蛋白质同源进化信息的蛋白质,抗体蛋白质和孤儿蛋白质进行结构预测。
结果发现,OmegaFold在这两类蛋白质,尤其是抗体的关键功能区结构预测,有突破性的进展。
而这类缺乏蛋白质同源进化信息的蛋白质,恰好是AlphaFold2和RoseTTAFold无法到达的盲区。
对此,华深智药创始人彭健认为,这项研究成果意味着:
蛋白质3D结构预测,并不需要同源序列的存在,也不需要知道任何进化信息。
而华深智药表示:
OmegaFold的出现补全了蛋白质三维结构预测的最后一块拼图。
另外,华深智药还披露了OmegaFold背后的技术细节。
具体来看,OmegaFold能够用单一序列取代多重同源序列,是因为研究团队采用了一种,基于几何信息的深度学习模型——OmegaPLM。
该学习模型可以根据蛋白质的序列信息,预测原子坐标,同时经过训练学习,预测原子在三维空间的距离。
在不断的迭代之后,可以让这些预测出来的原子坐标和距离,满足基本的几何定律,最终形成蛋白质结构。
OmegaFold的能力,和背后的技术原理整明白了,最后还剩下一个问题:
华深智药是谁?
公开信息显示,华深智药是一家AI创新药物研发商,成立于2021年6月,总部位于北京,最早是由张亚勤旗下的清华大学智能产业研究院孵化而来。
早在去年12月份,华深智药开发的HeliXonAI算法,就在全球持续蛋白质结构预测竞赛CAMEO上,实现对AlphaFold2的反超,以84.0的lDDT预测精确度得分,刷新了CAMEO竞赛得分记录。
一家成立半年左右的初创企业,出道即巅峰。
而巅峰背后的关键先生,就是华深智药创始人彭健。
彭健,伊利诺伊大学厄巴纳-香槟分校(UIUC)计算机科学系及医学院终身教授,计算生物领域的知名大牛,机器学习与蛋白质结构和功能预测的顶级科学家。
他在博士期间设计的著名算法 RaptorX,以及在UIUC任教期间设计的DeepContact算法,多次在CASP比赛中获得领先的成绩,并很早就尝试将深度学习的技术引入这个领域。
彭健也因此在2016年获得有“诺奖风向标”之称的斯隆研究奖,并于2020年获得计算生物领域最高奖奥弗顿奖(Overton Prize),成为该奖项20年来首位华人得主。
去年6月,彭健看到AI在生物制药领域的应用前景,于是就在清华大学智能产业研究院孵化之下,正式创办华深智药。很快便完成了千万美元级天使轮融资。
同时在今年6月,成立一周年之际,华深智药又完成由五源资本领投,高榕资本、Neumann Capital以及三家天使轮投资方襄禾资本、高瓴创投、清智资本跟投的A轮融资,融资金额近5亿元人民币。
参考链接:
[1]https://helixon.s3.amazonaws.com/omegafold.pdf
[2]https://twitter.com/peng_illinois/status/1538536909814874113
- 数学家教你烤肉饼:按最佳时机翻面可节省近1/3烹饪时间,网友:想去汉堡王应聘厨子了2022-08-22
- 包揽数理化国际奥赛全部第一,全员金牌,网友:中国队太秀了2022-07-19
- 减肥人士要哭:食物不吃看看也不行,因为你的大脑会发炎2022-07-18
- 语言AI原来知道自己的回答是否正确!伯克利等高校新研究火了,网友:危险危险危险2022-07-15