AlphaFold预测了几乎所有已知蛋白质!涵盖100万物种2.14亿结构,数据集开放免费用

DeepMind创始人:这是给人类的一份礼物

明敏 发自 凹非寺

量子位 | 公众号 QbitAI

全世界几乎所有已知蛋白质结构,都被AlphaFold预测出来了!

在预测出人类98.2%蛋白质一年后,DeepMind的重磅成果再次引爆学术界。

包括植物、细菌、真菌在内的100万个物种、2.14亿个蛋白质结构,现在都增加到了数据集中。

其中80%结构的可信度达到了足以支撑研究实验的水平,更有35%达到了高置信度。

而且这些数据全部免费开放

DeepMind表示,以后查找蛋白质结构,会像使用搜索引擎一样简单。

创始人哈撒比斯发推激动地说:

这是我们给全人类的一份礼物。

整个科研圈也再次被点燃,网友纷纷表示:难以置信,感谢开放数据集!

难以想象这会为药物研发带来什么!

像用搜索引擎一样查找蛋白质

这次数据集更新,主要增加了植物、细菌、动物和其他生物的蛋白质结构。

去年7月,AlphaFold数据集发布了人类98.5%的蛋白质结构,以及包含大肠杆菌、果蝇、小鼠等20个科研常用生物的蛋白质组数据。

数据集规模从之前的35万个蛋白质结构,一下子提升到了大约2.14亿个。

DeepMind创始人哈撒比斯表示,这基本上可以说是“整个蛋白质宇宙”了。

这意味着更多领域的研究可以被大幅提速。

斯克里普斯研究转化所创始人Eric Topol表示:

过去确定蛋白质3D结构往往需要数月或数年,而现在只用几秒钟。

要知道,蛋白质作为生命活动的基石,其相关研究对药物研发、疾病攻克、食品工程、农业、工业等领域都有重要影响。

但是蛋白质的研究却非常复杂。

因为其功能由结构决定,而其3D结构又是由氨基酸以脱水缩合的方式组成多肽链,多肽链再盘曲折叠而成。

也就是说,即使科学家们已知了蛋白质的氨基酸序列,可能的3D结构情况仍旧非常多。

假设一个蛋白质由100个氨基酸序列组成,那么它可能的3D结构情况将多达2的100次方个。

过去很长一段时间里,蛋白质预测工作主要通过科学家手动完成,比如施一公院士,就是用冷冻电镜预测蛋白质结构的顶级专家。

计算机虽然也能预测蛋白质结构,但是其准确性始终不高。

而这一局面,随着AlphaFold2的诞生后开始发生变化。

2020年12月,AlphaFold2在CASP14(蛋白质结构预测比赛)中的成绩,达到了史无前例的92.4/100

蛋白质真实结构之间只差一个原子的宽度,真正解决了蛋白质折叠的问题。

在此半年后,DeepMind先后开源AlphaFold2、AlphaFold数据集,可谓是在学术圈扔下了一记重磅炸弹。

2021年底,Nature将AlphaFold2预测人类98.5%的蛋白质并开源数据库列入年度十大科学事件

项目领队John Jumper也因此入选年度十大人物。

已有50多万学者访问过数据库

DeepMind最新公布数据显示,目前全球已经有190多个国家/地区、50多万名研究人员访问过AlphaFold数据集。

而学者们利用AlphaFold开展研究的成果也已经开始显现。

最近,发表在Science上的一篇研究表明,他们利用AlphaFold拼出了核孔复合体

这个结构由数百个蛋白质组成,控制着细胞核的物质进出,其相关研究是生物领域内的重点课题。

在AlphaFold的辅助下,该团队预测出了这一结构中一些未知区域。

△黄色部分表示新预测结构

DNDi(被忽视疾病药物开发组织)也曾表示,AlphaFold2推动了他们在热带疾病药物开发方面的研究。

朴茨茅斯大学酶创新中心(CEI)则利用AlphaFold2开发一些新的酶,可以用来降解污染环境的一次性塑料。

此外,过去一年来不少学术机构都在开展AlphaFold的相关研究,以使得这一工具能够让更多学者便捷使用。

前不久,哥伦比亚大学发布了首个AlphaFold2完整复刻版模型,采用PyTorch框架。

与此同时,计算生物行业也成为了人们关注的焦点,不少公司都在推出相关业务。

或许正如网友所说,世界正在因此而改变。

版权所有,未经授权不得以任何形式转载及使用,违者必究。