AlphaFold预测了几乎所有已知蛋白质!涵盖100万物种2.14亿结构,数据集开放免费用
DeepMind创始人:这是给人类的一份礼物
明敏 发自 凹非寺
量子位 | 公众号 QbitAI
全世界几乎所有已知蛋白质结构,都被AlphaFold预测出来了!
在预测出人类98.2%蛋白质一年后,DeepMind的重磅成果再次引爆学术界。
包括植物、细菌、真菌在内的100万个物种、2.14亿个蛋白质结构,现在都增加到了数据集中。
其中80%结构的可信度达到了足以支撑研究实验的水平,更有35%达到了高置信度。
而且这些数据全部免费开放!
DeepMind表示,以后查找蛋白质结构,会像使用搜索引擎一样简单。
创始人哈撒比斯发推激动地说:
这是我们给全人类的一份礼物。
整个科研圈也再次被点燃,网友纷纷表示:难以置信,感谢开放数据集!
难以想象这会为药物研发带来什么!
像用搜索引擎一样查找蛋白质
这次数据集更新,主要增加了植物、细菌、动物和其他生物的蛋白质结构。
去年7月,AlphaFold数据集发布了人类98.5%的蛋白质结构,以及包含大肠杆菌、果蝇、小鼠等20个科研常用生物的蛋白质组数据。
数据集规模从之前的35万个蛋白质结构,一下子提升到了大约2.14亿个。
DeepMind创始人哈撒比斯表示,这基本上可以说是“整个蛋白质宇宙”了。
这意味着更多领域的研究可以被大幅提速。
斯克里普斯研究转化所创始人Eric Topol表示:
过去确定蛋白质3D结构往往需要数月或数年,而现在只用几秒钟。
要知道,蛋白质作为生命活动的基石,其相关研究对药物研发、疾病攻克、食品工程、农业、工业等领域都有重要影响。
但是蛋白质的研究却非常复杂。
因为其功能由结构决定,而其3D结构又是由氨基酸以脱水缩合的方式组成多肽链,多肽链再盘曲折叠而成。
也就是说,即使科学家们已知了蛋白质的氨基酸序列,可能的3D结构情况仍旧非常多。
假设一个蛋白质由100个氨基酸序列组成,那么它可能的3D结构情况将多达2的100次方个。
过去很长一段时间里,蛋白质预测工作主要通过科学家手动完成,比如施一公院士,就是用冷冻电镜预测蛋白质结构的顶级专家。
计算机虽然也能预测蛋白质结构,但是其准确性始终不高。
而这一局面,随着AlphaFold2的诞生后开始发生变化。
2020年12月,AlphaFold2在CASP14(蛋白质结构预测比赛)中的成绩,达到了史无前例的92.4/100。
和蛋白质真实结构之间只差一个原子的宽度,真正解决了蛋白质折叠的问题。
在此半年后,DeepMind先后开源AlphaFold2、AlphaFold数据集,可谓是在学术圈扔下了一记重磅炸弹。
2021年底,Nature将AlphaFold2预测人类98.5%的蛋白质并开源数据库列入年度十大科学事件。
项目领队John Jumper也因此入选年度十大人物。
已有50多万学者访问过数据库
DeepMind最新公布数据显示,目前全球已经有190多个国家/地区、50多万名研究人员访问过AlphaFold数据集。
而学者们利用AlphaFold开展研究的成果也已经开始显现。
最近,发表在Science上的一篇研究表明,他们利用AlphaFold拼出了核孔复合体。
这个结构由数百个蛋白质组成,控制着细胞核的物质进出,其相关研究是生物领域内的重点课题。
在AlphaFold的辅助下,该团队预测出了这一结构中一些未知区域。
△黄色部分表示新预测结构
DNDi(被忽视疾病药物开发组织)也曾表示,AlphaFold2推动了他们在热带疾病药物开发方面的研究。
朴茨茅斯大学酶创新中心(CEI)则利用AlphaFold2开发一些新的酶,可以用来降解污染环境的一次性塑料。
此外,过去一年来不少学术机构都在开展AlphaFold的相关研究,以使得这一工具能够让更多学者便捷使用。
前不久,哥伦比亚大学发布了首个AlphaFold2完整复刻版模型,采用PyTorch框架。
与此同时,计算生物行业也成为了人们关注的焦点,不少公司都在推出相关业务。
或许正如网友所说,世界正在因此而改变。
- 最强开源CodeLLM模型深夜来袭!320亿参数,Qwen2.5-Coder新模型超越GPT-4o2024-11-12
- ¥9.99租英伟达H800!双十一算力羊毛真香,闲置卡也能挂机变现2024-11-04
- 最高精度1公里*1公里*1小时!达摩院发布气象大模型,落地大山东2024-11-07
- 时代变了!英伟达纳入道琼斯指数,英特尔被取代2024-11-02