AlphaFold2被超越!中国团队刷新全球蛋白质结构预测纪录,大牛彭健创业项目一鸣惊人
张亚勤旗下清华AIR研究院孵化
雷刚 发自 凹非寺
量子位 报道 | 公众号 QbitAI
AlphaFold2的纪录,刚刚被刷新了。
最新消息,全球持续蛋白质结构预测竞赛CAMEO(Continous Automated Model EvaluatiOn)上,DeepMind旗下AlphaFold2的纪录被刷新。
HeliXonAI,一个此前名不见经传的“新面孔”,加冕第一。
同时,在全球结构预测领域主要评价指标lDDT(Local Distance Different Test)中,HeliXonAI跑分也高达83.5分,连续四周排名第一,远超第二名的70.2分。
HeliXonAI由此一鸣惊人,成为圈内热议焦点。
但随着幕后团队浮出水面,如此成绩又被认为情理之中。
因为打造团队华深智药,正是生物计算领域大牛彭健的创业公司,也是张亚勤旗下清华AIR智能产业研究院首个公开的孵化项目。
超越AlphaFold2的HeliXonAI
CAMEO(Continous Automated Model EvaluatiOn),全球持续蛋白质结构预测竞赛,由瑞士生物信息研究所和巴塞尔大学联合举办,与CASP被认为是结构预测领域最重要的两项比赛。
但不同于CASP的是,CAMEO的参赛者需要每周预测20个由世界范围内的结构生物学家最新破解出结构的蛋白质的结构,比赛的得分与排名也会每周实时更新。
该竞赛吸引了全球生物计算领域的最顶尖选手。
诸如华盛顿大学蛋白质设计研究所的David Baker教授研发的RoseTTAFold,百度开发的PaFold,和腾讯研发的tFold等模型,都在其中竞逐。
而华深智药的结构预测平台HeliXonAI,已经连续四周在主要评价指标lDDT(Local Distance Different Test)上达到83.5分,持续排名世界第一。
在CAMEO的结果中,越靠右表示预测的结构越多,越靠上表示预测的结构越准……
而现在,牢牢地占据最右上角的就是HeliXonAI。
更令人惊喜的是,在上一周CAMEO发布的17个目标蛋白质上,HeliXonAI的平均lDDT预测精确度,达到了84.0——意味着对AlphaFold2的超越。
之前DeepMind团队公开的AlphaFold2模型预测精确度,评分在81.9。
并且在另一评价指标TM-score上,也有一致的结果。
HeliXonAI以91.6的评分,同样超越了AlphaFold2的85.6。
相比RoseTTAFold和PaFold的76分,更是数量级上的超越。
此外,在最新一周的标注为“困难” (hard) 的7个蛋白结构中,HeliXonAI更是进一步拉开差距,在TM-score上比第二名Alphafold2高出6分之多。
总之,不同层面的数据结果都在说明,全球蛋白质结构预测的王座,易主了。
HeliXonAI如何炼成?
众所周知,蛋白质在理解生命科学与药物开发中的地位举足轻重。为了执行特定功能,蛋白质必须折叠成对应的结构。
然而,理解蛋白质的三维空间结构一直是生物学中的重大挑战,已经困扰生物学家 50 多年…
直到 2020 年由DeepMind 团队开发的 AlphaFold2模型,在第十四届国际蛋白质结构预测竞赛(CASP14)上,几乎达到冷冻电子显微镜等实验技术的准确度。
一石激起千层浪,引领计算生物领域的标志性变革。
但AlphaFold2实际也并非完美,例如在同源信号较弱的情况下预测的误差较大,对于抗体可变区域的预测也精度欠佳。
华深智药团队,也是看到了可改进之处,着手开发人工智能药物开发平台——HeliXonAI。
该平台囊括了包含蛋白质结构预测在内的一整套生命建模算法体系,将被用于承接包含抗体设计,靶点发现等诸多挑战性任务。
同时,HeliXonAI的蛋白质结构预测算法在AlphaFold2的基础上,提出了诸多改进。
比如数据上利用数据蒸馏引入了更为庞大的无结构氨基酸序列数据库,并且在模型上设计了新颖的进化调整(Evolutionary Calibration)模块实现了对多比对序列的信息较正。
又比如对于空间坐标的优化,HeliXonAI引入了几何平滑(Geometric Smoothing)模块,利用几何深度学习的特性,和近一千层的深度,不断地将坐标优化到正确位置上。
这2大全新的模块的加入,能够迭代式地修复同源序列对比中的误差并相应地对所有原子几何位置做出对应的调整,这样就能更为有效地解决同源信号弱的问题,并在原子级别的细节上做出更精准的预测。
最终,在8块A100显卡上,经过连续接近3个多月的训练,HeliXonAI实现了模型预测能力指标上对AlphaFold2的超越。
当然,需要指出的是,如此成果并非只是3个月的冲刺,背后还有华深智药团队的多年积累。
华深智药打造者?
彭健,伊利诺伊大学厄巴纳-香槟分校(UIUC)计算机科学系及医学院终身教授,生物计算领域的知名大牛,机器学习与蛋白质结构和功能预测的顶级科学家。
他在博士期间设计的著名算法RaptorX以及在UIUC任教期间设计的DeepContact算法,多次在CASP比赛中获得领先的成绩,并很早就尝试将深度学习的技术引入这个领域。
彭健也因此在2016年获得有“诺奖风向标”之称的斯隆研究奖,并于2020年获得计算生物领域最高奖奥弗顿奖(Overton Prize)。
此前,奥弗顿奖获得者包括David Baker, Trey Ideker以及Aviv Regev等计算生物学领军人物,而彭健教授也是该奖项20年来的唯一华人得主。
今年6月,看到了领域内正在发生的质变,在张亚勤旗下清华大学人工智能产业研究院孵化之下,正式创办华深智药。很快便完成了千万美元级天使轮融资。
创办伊始,华深智药就明确要打造新一代人工智能科学计算平台,并结合自研高通量生物实验技术,为研发人员提供微观世界分子计算、模拟与设计的智能系统。
彭健明确,在新药开发领域,特别是大分子药物开发,华深智药希望用创新性地使用AI重构药物开发流程,从而极大程度上提高新药研发速度和效率。
而HeliXonAI平台,就是华深智药第一阶段的成果。
并且HeliXonAI平台的产业应用,也已经开始展现,因为该平台集成了包含蛋白质交互,蛋白质动态建模,抗体关键区域建模,靶点查询,蛋白质设计等一整套生命建模流程体系……
于是在针对新冠病毒变异株的抗体设计和免疫逃逸位点检测等任务中,也能发挥作用。
据说,相关成果已经进入产业转换阶段了。
CAMEO传送门:
https://www.cameo3d.org/modeling/1-week/difficulty/all/?to_date=2021-12-04