重大突破!AI破解几乎所有蛋白质结构,两亿个全新数据将带来什么

 2022-08-02 12:40:14    17  

来源:DeepMind

一个“蛋白质宇宙”诞生了。2021年7月刚推出之际,AlphaFold数据库拥有35万个蛋白质预测结构,如今这个数据达到了2.14亿个,库容翻了610倍。

7月28日,DeepMind公布的这个蛋白质数据库已经囊括了几乎所有地球生物物种,包括动物、植物、细菌、真菌等等,据《自然》官网报道,DeepMind的合作方、欧洲分子生物学实验室的欧洲生物信息学研究所 (EMBL-EBI)称,在超过2.14亿个预测结构中,约35%与实验确定的蛋白质结构一样高度准确,另外45%的预测结构也到达了很高的可信度,能用于后续多种研究和应用。

从建立之初,这个数据库就是免费开放的,如今已成为科学家的必备工具。据EMBL-EBI数据,迄今已有超过1000篇科学论文引用了AlphaFold数据库,来自190个国家的50多万名研究人员访问过该数据库,查看了超过200万个蛋白质结构。目前,DeepMind测定的这些蛋白质结构也被整合到其他的公共数据库中,将为数百万研究人员的日常工作提供参考。

相比于1年前,AlphaFold数据库中的蛋白质结构数据量增加了600多倍,涵盖了物种也达到了100万种

AlphaFold数据库就是蛋白质结构的“谷歌搜索”,要认识某个蛋白质结构只需在数据库搜索可立即获得结果,这可以让科学家能够集中精力加快实验研究。按照DeepMind创始人、首席执行官德米斯·哈萨比斯(Demis Hassabis)的看法,这是迄今为止人工智能系统在推进科学发展中做出的最大贡献。他在DeepMind的官方博客中称,从抗击疾病到开发疫苗,AlphaFold已经取得了令人难以置信的进展,而这只是开始。

2亿个数据有什么用

从科研人员对该数据库的热情就可以想见其对科学研究的价值,仅DeepMind在《自然》杂志上发表的2篇论文已被引用超过4000次。可以说,AlphaFold实现了AI在生命科学领域的雄心。斯克利普斯研究所创始人埃里克·托普(Eric Topol)的看法是,AlphaFold是AI在生命科学领域取得的唯一的重大进展,以前确定一个蛋白质的三维结构需要数月或数年,现在只需要几秒钟。

托普说,AlphaFold已经加速并促成大规模的蛋白质结构被破解,包括核孔复合体的结构,“我们可以期待每天都有更多的生物之谜被揭示”。事实上,按照哈萨比斯的说法,这个数据库的价值可以覆盖从了解疾病到保护蜜蜂,从解决生物学难题到深入研究生命起源本身,对解决一些重要的问题,例如可持续发展、燃料问题、粮食不安全和被忽视的疾病等,都将产生重大的影响。

该数据库已经在疟疾的治疗中发力了。今年5月,牛津大学的生物化学教授马修·希金斯(Matthew Higgins,从事疟疾研究)领导的研究团队宣布,他们已经使用AlphaFold帮助确定了一种来自疟原虫的关键蛋白质的结构,并找出能阻止疟原虫传播的抗体可能结合的位置。

希金斯在接受《卫报》采访时称,他们之前采用蛋白质晶体学技术来计算这种分子结构,但多年来一直没有取得突破,因这种蛋白质的结构动态性强并且会到处移动,而在将AlphaFold预测的结构模型与实验数据结合后,他们顺利地解决了这一难题。他们准备将最新的研究成功用于设计优化的疫苗,以诱导感染者产生最有效的、能阻断疟疾传播的抗体。

目前借助于AlphaFold,已经发表的蛋白质结构(图片来源:DeepMind)

而环境研究,也会因为这一数据库而受益。据《卫报》,英国朴茨茅斯大学的结构生物学教授兼酶创新中心(CEI)的主任约翰·麦吉汉(John McGeehan)正在使用AlphaFold来识别自然界中的酶的结构,以期找到能消化和回收塑料的酶。他们已经发现了从未见过的三维的蛋白质结构具有分解塑料的功能。

DeepMind表示,该公司在与其他机构和组织合作时,会优先考虑最富社会效益的项目。他们与被忽略疾病药物研发组织(DNDI)合作,帮助推进利什曼原虫病(Leishmaniasis)、南美锥虫病等严重影响贫困地区的疾病的治疗,以及对世界卫生组织(WHO)列为优先研究项目中的关键蛋白质结构进行预测,包括麻风病和血吸虫病等。

从量变到质变

如果把AlphaFold看作一个人,它大概会是成长飞速的天才少年。

DeepMind隶属于谷歌的母公司Alphabet,击败了传奇围棋选手李世石的AlphaGo亦为其旗下产品。2016年,击败李世石后不久,DeepMind成立了针对“蛋白质折叠问题”的研究团队。到2018年,DeepMind首次公开了AlphaFold的预测结果,其成果发表在《自然》上。

2020年11月30日,AlphaFold2以巨大优势在国际蛋白质结构预测竞赛(CASP)中一举夺魁,其预测的蛋白质结构已达到原子精度,可与实验测得的结构相媲美。要知道,多年来,科学家只能通过核磁共振、X射线和冷冻电镜技术来确定蛋白质的结构。他们需要为了一个蛋白质结构反复试验,其间花费了数年时间和巨额费用。2005年,《科学》杂志在创刊125周年之际将预测蛋白质结构列为125个最具挑战性的科学问题之一。因此,AlphaFold的这次胜利被视为解决了50年来生物学领域的一个重大挑战。

在中等难度的蛋白结构预测中,AlphaFold连续两年夺冠,今年更是取得了将近90分的GDT成绩。来源:DeepMind

到了2021年,DeepMind决定把AlphaFold的力量交到世界手中,于是在当年的7月15日在《自然》上开源了AlphaFold的代码以及60页的详细补充信息。

就在1周后,DeepMind在《自然》上又发表了对整个人类蛋白质组的结构预测结果,且使当时已知的高置信度蛋白质结构的数量增加了一倍。与此同时,DeepMind还联合EMBL-EBI推出了AlphaFold数据库,其中囊括了人类蛋白质组以及另外20种模式生物体内超过35万个蛋白质结构。

而又于11月,DeepMind又更新了AlphaFold2的源代码,以解读多链蛋白质复合物,这显著提高了预测蛋白质之间相互作用的准确性。2022年,AlphaFold数据库迎来了库容的数量级增长。这个“蛋白质宇宙”就拥有了独一无二的强大力量。

更高的期待

当然这个数据库并非万能,科学家有更高的期待。

伦敦帝国理工学院教授基思·威尔逊(Keith Willison)称,AlphaFold在蛋白质折叠方面仍有问题需要解决。AlphaFold只能基于已知实验数据进行预测,但对于无法折叠成稳定3D结构的蛋白质就无能为力了,这些蛋白质通常具有不稳定和不可预测的折叠模式。

伊利诺伊大学厄巴纳-香槟分校计算生物学家彭健称,AlphaFold可以帮助科学家重新评估以前的研究,以更好地了解疾病是如何发生的。不过他提示说,对于具有相关信息但认识不足的罕见蛋白质,AlphaFold的预测质量也可能不那么高了。

哥伦比亚大学系统生物学家穆罕默德·库莱希(Mohammed AlQuraishi)在接受据《麻省理工科技评论》采访时称,许多蛋白质会受基因突变和自然等位基因的影响,但它们的结构会如何改变,这个数据库不会解决。他说,“希望能准确模拟蛋白质突变体的工具很快会出现”。

库莱希等人参与创办了非营利性人工智能研究联盟OpenFold,他们在AlphaFold数据库基础上做了进一步改造。2022年6月28日,OpenFold发布了其开发的第一个能预测蛋白质结构的AI模型,该模型是基于谷歌DeepMind和华盛顿大学蛋白质设计研究所的工作而开发的。OpenFold内部评价是,该模型比AlphaFold2平均精度更高,运行时间更快。

不过,山东大学数学与交叉科学研究中心教授杨建益(从事蛋白质结构预测)告诉《环球科学》,AlphaFold2已经很好用了,部署也很简单,对硬件要求并不高,有图形处理器(GPU)就够,很多公司和高校都在用,速度还很快。他说,“我个人并不太看好OpenFold,复现AlphaFold2的训练过程意义并不大,我自己也测试过OpenFold,它的性能并不如AlphaFold2。”

记者:孙滔、审校:clefable

参考链接:

https://www.nature.com/articles/d41586-022-02083-2

https://www.ebi.ac.uk/about/news/technology-and-innovation/alphafold-200-million/

https://www.deepmind.com/blog/alphafold-reveals-the-structure-of-the-protein-universe

https://www.theguardian.com/technology/2022/jul/28/deepmind-uncovers-structure-of-200m-proteins-in-scientific-leap-forward

https://www.newscientist.com/article/2330866-deepminds-protein-folding-ai-cracks-biologys-biggest-problem/

https://www.technologyreview.com/2022/07/28/1056510/deepmind-predicted-the-structure-of-almost-every-protein-known-to-science/

  •  标签:  
相关推荐
重大突破!AI破解几乎所有蛋白质结构,两亿个全新数据将带来什么科技数码

wuhu专题编辑 | 新桥别亦当我们一边在想AI(人工智能)可否取代人类时AI已经不知不觉间渗透到了我们生活中的各个细枝末节在艺术创作领域以AI为核心的众多技术如AI换脸、AI影像、AI角色、AI游戏、AI动画……AI动画黑科技!做动画不用加中间画了?杨幂换脸朱茵!?「AI换脸」!太可怕了!AI一键生成《双城之战》风格?!但如果要说当下最热的AI技术那一定非AI绘画莫属了!甚至有人将今年定义为“AI 绘画元年”从科技大厂纷纷宣布新产品以及众多国内外艺术创作者的反响来看此话不无道理今年4月由艺术家

2022-08-08  5
重大突破!AI破解几乎所有蛋白质结构,两亿个全新数据将带来什么科技数码

写在前面2021年年末,《科学》杂志提名了十项年度科学突破,其中不少进展与生命科学息息相关,而且充分展现了现阶段科学突破中,生命科学与其他学科交叉碰撞出来的强大能量。今天我们来聊聊这里面最受瞩目,同时也是连续两年入选的一项——AI预测蛋白质结构。过去的几十年里,世界各地的顶尖结构生物学家完成了大约18万种蛋白质结构的解析;但在过去的两年里,AlphaFold 完成了人体内几乎所有蛋白质的结构预测,AI预测蛋白质结构为何如此神奇?又有哪些价值?我们先不谈蛋白质结构,说到人工智能,大家会想到什么?我

2022-08-08  3
重大突破!AI破解几乎所有蛋白质结构,两亿个全新数据将带来什么科技数码

“您好,现在已经过了定时投放时间,请将垃圾投放至附近的误时投放点。”在广州市黄埔区文冲街道瑞东花园社区一个垃圾投放点,清晰的提示语音及时纠正居民错误投放垃圾的行为。自从瑞东花园投放点安装“桶外抓拍和监控系统”后,该小区的市容环境和垃圾分类工作彻底更上新台阶,同时又成为该小区暑假小朋友每日参与垃圾精准分类的网红打卡点。在黄埔区,垃圾分类玩起了“科技范儿”,瑞东花园社区智慧化的投放点即是一个缩影。近年来,黄埔区结合人脸识别、精准溯源等科技元素,不断推动生活垃圾分类工作信息化、科技化,探索构建垃圾分类

2022-08-08  3
重大突破!AI破解几乎所有蛋白质结构,两亿个全新数据将带来什么科技数码

最近,人们不难发现一个现象,就是虽然下半年已经经过了一个月,但我们发现手机市场依然十分不火爆,热度不高。虽然到了9月,华为的Mate 50和苹果的iPhone 14系列就将登场,但现在的热度也没法和以前相比了。那么,我们不妨总结下,目前手机市场的趋势有哪些,我们又该如何选购一款称心如意的产品呢,一起来看看。趋势一,新定位,手机已沦为传统产品。根据中国信通院发布的“2022年6月国内手机市场运行分析报告”显示,1-6月,国内市场手机总体出货量累计1.36亿部,同比下降21.7%,降低不少。而调研机

2022-08-07  5
重大突破!AI破解几乎所有蛋白质结构,两亿个全新数据将带来什么科技数码

 “白色部分是盐分,它不断溶解结晶,砂岩的表层颗粒会脱落。”在我国文化遗产领域首个多场耦合实验室内,敦煌研究院副院长郭青林认真介绍。  这个位于甘肃省敦煌市的实验室占地1.6万平方米,可模拟日照、降雨、降雪等各种环境条件。  “在实验室建立之前,小样品难以真实模拟自然条件下的劣化过程。”郭青林说,比如,真实环境下,雨水渗入遗址墙体内,又在太阳下蒸发,周而复始。微缩样品难以模拟出这一过程。而在真实自然条件下测试,需要“天公作美”,得等时间,无法做到试验条件的重复。相比之下,多场耦合实验室具有时间可

2022-08-07  3

原文链接:https://www.tscy18.com/kejism/24423.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 315661083@qq.com 举报,一经查实,本站将立刻删除。