从AlphaGo到AlphaFold,什么是AI工具的最佳用法?

 2022-07-28 15:20:17    12  

图片来源@视觉中国

文 | 观察未来科技

两年前,2020年12月,Science杂志评选了该年度十个重大科学突破,除了在特殊大背景下的mRNA疫苗,还有一项就是蛋白质结构预测的人工智能——AlphaFold。AlphaFold是由谷歌公司深度学习方面的核心团队DeepMind所开发,该团队一直致力于用人工智能和神经网络技术解决不同场景下的学习问题——大名鼎鼎的AlphaGo就出自DeepMind麾下。

围棋博弈算法AlphaGo大获成功后,DeepMind转向了基于氨基酸序列的蛋白质结构预测,提出了名为AlphaFold的深度学习算法,并在国际蛋白质结构预测比赛CASP13中取得了优异的成绩。AlphaFold的横空问世在几年的时间里彻底改变了生物学,不过,目前,科学家们似乎仍在寻找AlphaFold这类人工智能工具的最佳用法。

拨开制药迷雾

制药业是危险与迷人并存的行业。传统上,如果某家制药公司想要开发一种新药,只能为了找到潜在的候选药物而去搜索庞大的医学资料库。但显然,这种方法存在巨大的不确定性,需要科学家们付出多年的努力,而且即使找到了候选药物也只是一个起点。一旦确定了候选药物,接下来,科学家们就要对它们进行分析、合成,整个过程可能又需要好几年。

最后,研究人员还要对发现的药物进行临床试验,一开始是在动物身上进行,然后是在一小群人身上,最后是在一大群人身上简而言之,药品的开发是一场耗时又耗钱的漫长“战争”。除此之外,这场战争中的“阵亡者”数量也很大——根据《自然》数据,一款新药的研发成本大约是26亿美元,耗时约10年,而成功率则不到十分之一。

尽管面临重重阻碍,但计算机科学家出身的生物物理学家亚历克斯·扎沃龙科夫(Alex Zhavoronkov)却创造性地提出了一条可能的捷径。2012年前后,扎沃龙科夫开始注意到,人工智能在图像、语音和文本识别方面变得越来越擅长了。在他看来,这三个任务都有一个关键的共同点,那就是在每一种情况下都需要庞大的数据库,从而用于训练人工智能。

类似的数据库也出现在了药理学中。因此,在2014年,扎沃龙科夫开始考虑是否可以利用这些数据库和人工智能技术来加快药物开发的过程

为了把这些想法变成现实,扎沃龙科夫在马里兰州巴尔的摩市的约翰霍普金斯大学一个名为Insilico Medicine的机构,开始了研究。Insilico Medicine的“药物发现引擎”的起点就是对数百万的数据样本进行筛选,以确定特定疾病的生物学特征,然后再利用这个引擎确定最有希望的治疗靶点,并运用生成性对抗网络去生成完全适合这些靶点的分子。

3年后,扎沃龙科夫获得了成功,扎沃龙科夫开发出系统,现了潜在药物靶点的爆炸性增长和一个更有效的测试过程,让一场以往持续时间长达10年或“持久战”变成了一个月内就可以结束的“小冲突”。在2018年年底,Insilico Medicine在不到46天的时间里就得到了一系列新分子,而且他们的成果不仅包括最初的发现,还包括药物的合成和计算机模拟的验证实验。

新药发明的过程还包括了一个关键的步骤,即识别新药靶点,也就是药物在体内的结合位置,这是药物研发过程的另一个关键部分

实际上,从1980年到2006年,尽管每年的投资高达300多亿美元,但是平均而言研究人员每年仍然只能找到5种新药。其中关键的问题就在于复杂性。大多数潜在药物的靶点都是蛋白质,而蛋白质的结构,即2D氨基酸序列折叠成3D蛋白质的方式决定了它的功能。

一个只有100个氨基酸的蛋白质,已经是一个非常小的蛋白质了,但就是这么小的蛋白质,可以产生的可能形状的种类依然是一个天文数字,大约是一个1后面跟着300个0。这也正是蛋白质折叠一直被认为是一个即使大型超级计算机也无法解决的难题的原因。

从1994年开始,为了监测这种超越超级计算机能力的蛋白质折叠过程,科学界每年都会举办一次蛋白质结构预测关键评估(CASP)大赛。直到2018年几乎没有人取得过成功。但是,DeepMind的开发者们利用神经网络化解了这个难题。他们开发出了一种人工智能,可以通过挖掘大量的数据集来确定蛋白质碱基对与它们的化学键的角之间的可能距离——这是蛋白质折叠的基础。他们把这个人工智能命名为AlphaFold。

典型的量变巨大的质变

2018年,AlphaFold首次参加了CASP大赛,并摘得头魁。在2018年的比赛中,AlphaFold需要与其他参赛的人工智能比赛,解决43个蛋白质折叠的问题。最终,AlphaFold答对了25个,而获得第二名的人工智能只勉强答对了3个。AlphaFold的诞生,成为蛋白质结构解析领域里程碑,也彻底改变了成千上万生物学家的研究

2020年,DeepMind发布了AlphaFold软件的第二个版本。相较于第二个版本,2018年的更早版本并不够好,不能取代使用实验方法解析的结构,而AlphaFold2的预测结果平均而言已与实验结果相差无几。当时,AlphaFold2再一次CASP大赛上一举夺魁。CASP赛每两年举办一次,呈现了生物学界在一项艰巨挑战上的最新进展

2020年的这项挑战是如何仅凭蛋白质的氨基酸序列确定其3D结构。计算机软件给出的结构会拿来与经过X射线晶体学或冷冻电镜(cryo-EM)这类实验方法确认的结果进行对比。X射线晶体学和冷冻电镜分别通过X射线和电子束照射蛋白质的方式来对蛋白质的结构进行成像。

AlphaFold的预测用被称为“427组”,多个预测达到了惊人的准确性,让它们脱颖而出当然,AlphaFold的预测水平有高有低,但将近三分之二的预测结果都与实验结果在质量上不相上下。AlphaFold的预测甚至帮助确定了Lupas实验室多年来一直想要破解的一种细菌蛋白的结构。

一年后,2021年7月15日,AlphaFold2的论文发表,同时公开的还有免费的开源代码等信息,让业内的研究人员们可以打造属于自己的版本。一周后,DeepMind宣布已经用AlphaFold预测了人体内近乎所有蛋白质的结构,以及20个其他被大量研究的生物体的完整“蛋白质组”,其中包括小鼠和大肠杆菌,累计共有36.5万个结构。

DeepMind还将这些信息上传到了由EMBL欧洲生物信息学研究所(EMBL–EBI)维护的数据库。在那之后,这个数据库已经收录了近100万个结构。根据DeepMind的统计,目前已有超40万人使用过EMBL-EBI的AlphaFold数据库。此外,还有一些AlphaFold的“超级用户”:这些研究人员在自己服务器上安装了AlphaFold,或是打造了AlphaFold的云版本,用来预测不在EMBL-EBI数据库中的结构,或是探索AlphaFold的新用途。

今年,DeepMind还计划发布总计1亿多个结构预测——相当于所有已知蛋白的近一半,是蛋白质数据银行(PDB)结构数据库中经过实验解析的蛋白数量的几百倍之多。

要知道,过去半个多世纪,人类一共解析了五万多个人源蛋白质的结构,人类蛋白质组里大约17%的氨基酸已有结构信息;而AlphaFold的预测结构将这一数字从17%大幅提高到58%;因为无固定结构的氨基酸比例很大,58%的结构预测几乎已经接近极限。这是一个典型的量变引起巨大的质变,而这一量变是在短短一年之内发生的。

AlphaFold的最佳用

除了在制药领域发挥作用,AlphaFold还被应用到了更多领域。

一方面,AlphaFold的结构解析能力极大解放了生物学家们的研究:有研究团队还在搜索另一个包含从海洋和废水中提取的DNA序列的数据库,试图发现新的食塑酶。通过让AlphaFold快速预测数千个蛋白的结构,该团队希望能更好地理解酶是如何通过演化拥有分解塑料的能力,并能进一步优化它们。

哈佛大学演化生物学家Sergey Ovchinnikov认为,这种将任何蛋白编码基因序列转化为可靠结构的能力,对于演化研究来说非常有用。研究人员通过比较基因序列来确定不同物种的生物体与它们基因之间的亲缘关系。而对于亲缘关系较远的基因来说,这种比较可能无法发现演化近亲,因为这些序列已经变了很多。但通过比较变化速度比基因序列更慢的蛋白质结构,研究人员或许能揭示之前没注意到的古代关系。

另一方面,AlphaFold还是个绝佳的实验工具,AlphaFold能提供一个初步预测,之后再由实验验证或优化。比如,来自X射线晶体学的原始数据以衍射X射线的图样呈现。一般来说,科学家需要对蛋白质结构有个初步猜测,才能解释这些图样。而AlphaFold的预测让大部分X射线图样不再需要这些方法。

另外,AlphaFold不仅改变了科学家测定蛋白质结构的方式。一些研究人员还在利用这些工具打造全新的蛋白质。华盛顿大学生物化学家、蛋白质设计和结构预测领域带头人David Baker表示,深度学习彻底改变了他们团队设计蛋白质的方式。Baker的团队让AlphaFold和另一个AI工具RoseTTAFold来设计新的蛋白。他们改写了人工智能的代码,让软件在得到随机氨基酸序列的情况下,对它们进行优化,直到合成出能被这些神经网络识别为蛋白的东西。

2021年12月,Baker的研究团队报告了他们在细菌中表达了129种这些幻想蛋白,发现其中约1/5的蛋白会折叠成类似他们预测的结构而这是这种网络能用来设计蛋白质的首个证明。

基于此,今年7月21日,来自华盛顿大学等机构的科学家们在Science杂志上发布了一款新的AI软件,该软件能够为自然界中尚不存在的蛋白质绘制结构。更重要的是,科学家们已经利用这一软件创造出潜在用于工业反应、癌症治疗、甚至用于预防呼吸道合胞病毒(RSV)感染的候选疫苗的原始化合物。

虽然AlphaFold的出现推动了巨大进展,但科学家认为有必要说明它的局限性一些研究人员尝试将AlphaFold应用于会破坏蛋白天然结构的各类突变,包括与早期乳腺癌有关的一个突变,这些尝试证实了AlphaFold还无法预测新的突变对蛋白质的影响,因为没有演化上相关的序列可以用来研究。

并且,AlphaFold无法很好地处理会在不同构象中呈现不同结构的蛋白。这些预测是针对单独的结构,而许多蛋白质其实会与配体一起发挥功能,如DNA和RNA、脂肪分子、铁等矿物质。

目前,AlphaFold掀起的革命会走向何方依然无法预见但每一天,AlphaFold都显示出推动的巨大力量。EMBL-EBI的计算生物学家Janet Thornton认为AlphaFold带来的最大转变之一,可能是让生物学家更愿意接受计算机和理论的研究方法。换言之,真正的变革是人们思维方式的变化这其实就是AI工具的最佳用法。AlphaFold所彰显的意义,是科技的力量。

试想一下,在未来,如果把人工智能AlphaFold与生成式对抗网络Insilico结合起来,再加上量子计算领域可预期的突破,我们就将真正走出制药的迷雾,连同生物领域的百年来的困惑,而走向一条未来生物学的坦途。(本文首发钛媒体APP)

  •  标签:  
相关推荐
从AlphaGo到AlphaFold,什么是AI工具的最佳用法?科技数码

澎湃新闻首席记者 贺梨萍8月16日下午,上汽人工智能实验室入驻临港暨高级别自动驾驶2.0技术架构发布会在临港新片区AI创新港举行。上汽人工智能实验室方面表示,将推动“临港研、临港造、临港用”的上汽Robotaxi 2.0在临港新片区“无人出租”应用场景中率先投入运营。早在2018年6月,上汽集团宣布成立上汽人工智能实验室成立,被认为是国内车企创立的首个人工智能实验室。去年的12月,作为上汽集团四大重大创新发展战略项目之一、国内首个车企L4自动驾驶运营平台的享道Robotaxi正式启动。据官网介绍

2022-08-17  5
从AlphaGo到AlphaFold,什么是AI工具的最佳用法?科技数码

中国青年报客户端讯(中青报·中青网记者 邱晨辉)继实施“使命清单制度”“强种科技行动”“沃田科技行动”“增粮科技行动”之后,中国农业科学院8月16日启动实施“智机科技行动”。这是该院履行国家战略科技力量职责使命,开展的又一项重大科技行动。“智机科技行动”的核心是聚焦农机装备突出问题,开展高效智能绿色农机科技攻关,围绕主要粮食作物生产装备智能化、棉油大宗经济作物生产装备关键技术自给化、薄弱环节和区域生产装备全面化等重点工作,有针对性开展科技攻关,突破大宗农作物、设施农业、丘陵山地等关键装备技术,保

2022-08-17  5
从AlphaGo到AlphaFold,什么是AI工具的最佳用法?科技数码

8月16日,中国农业科学院在北京启动“智机科技行动”。该行动将聚焦我国农业机械化中丘陵农田机械、设施农业机械、农产品加工装备、畜牧养殖智能化机械缺乏等核心难题,进行集中攻关。“智机科技行动”发布会,中国农科院院长、中国工程院院士吴孔明发言。中国农科院供图机械化水平提升,但存在“三多三少”农业机械化是农业现代化最重要的基础之一。数十年中,我国农业机械化水平快速提升,农业农村部数据显示,我国小麦、玉米、水稻三大主粮耕种收综合机械化率分别超过97%、90%和85%,农作物综合机械化率超过71%。与此同

2022-08-17  3
从AlphaGo到AlphaFold,什么是AI工具的最佳用法?科技数码

图为新闻发布会现场。 祁增蓓 摄中新网西宁8月16日电 (祁增蓓)国内首套年产4.4万吨大型金属镁人工智能化连续铸造线建成、全球最大卤水氯化锂熔盐电解法制取金属锂项目投产、全国首个百兆瓦级光伏发电实证基地和全球最大的水光互补项目建成、全国首个试点省实验室青藏高原种质资源研究与利用实验室揭牌……16日,青海省科技厅副厅长苏海红在青海省人民政府新闻办公室举行“青海这十年”之科技专场新闻发布会上,介绍十年来青海省科技工作取得的成就。图为青海省科技厅副厅长苏海红介绍青海省科技工作取得的主要成就。 祁增蓓

2022-08-16  3
从AlphaGo到AlphaFold,什么是AI工具的最佳用法?科技数码

澎湃新闻记者 张成杰8月16日,中国农业科学院在北京召开“智机科技行动”发布会。“智机科技行动”是中国农业科学院履行国家战略科技力量职责使命,是继实施“使命清单制度”“强种科技行动”“沃田科技行动”“增粮科技行动”后,开展的又一项重大科技行动。“智机科技行动”的核心是聚焦农机装备突出问题,开展高效智能绿色农机科技攻关,围绕主要粮食作物生产装备智能化、棉油大宗经济作物生产装备关键核心技术自给化、薄弱环节和区域生产装备全面化等重点工作,有针对性开展科技攻关,突破大宗农作物、设施农业、丘陵山地等关键装

2022-08-16  3

原文链接:https://www.tscy18.com/kejism/24141.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 315661083@qq.com 举报,一经查实,本站将立刻删除。