《旧约·创世纪》记载,以色列人祖先亚伯拉罕由于虔敬上帝,上帝与之立约,应许其后裔将拥有“流牛奶与蜜之地”。后来,“应许之地”也有了“最好的地方”“最适合的领域”的意思。
近日,谷歌旗下DeepMind团队一周之内搞了两件“大事情”。而华盛顿大学戴维.贝克团队的RosettaFold(罗塞塔折叠)也搭载AlphaFold2(阿尔法折叠)的便车风光了一把。
人工智能(AI)程序和的抢眼表现,似乎昭示着,它正通过蛋白质结构解析和预测,走向自己的“应许之地”。
大事情
7月16日,Deepmind团队在《自然》发表文章,公布了第十四届国际蛋白质结构预测大赛(CASP14)中,夺冠的AlphaFold2的源代码。
同一天,华盛顿大学蛋白质设计研究所戴维.贝克团队在《科学》刊文,推出一款名为 RosettaFold 的人工智能程序。该程序基于深度学习,能够根据有限的信息快速准确地预测出目标蛋白质的结构,“达到与 AlphaFold2 不相上下的准确度”。
2020年5月至7月,在CASP14上,AlphaFold2以排名第一的准确性轰动一时。一时间,AlphaFold 2“颠覆”“革命性突破”“诺奖级成果”等词汇加身。
很多结构生物学家还未完全从AlphaFold2和RosettaFold开源的震撼中回过神来。7月22日,DeepMind团队和欧洲生物信息学研究所(EMBL-EBI)联合在《自然》发表论文,公开AlphaFold2预测的蛋白质结构数据库(AlphaFold DB)。初始的AlphaFold DB涵盖了属于人类以及其他20个重要物种的大多数具有较大价值的蛋白质, 包含超过35万个不同的蛋白结构,并最终将增加到约1.3亿个三维结构。
“这会让结构生物学、乃至整个生命科学上个大台阶。”清华大学结构生物学高精尖创新中心执行主任王宏伟对《中国科学报》说,“原来大家要用很多实验手段去解析单链蛋白质的结构,现在由于高水平结构预测软件的出现,对单链蛋白质实验解析的需求可能没以前那么高了。但另一方面,对多个蛋白质或核酸分子形成的复合体进行结构解析的迫切性会更强,所以对冷冻电镜的技术需求量也会更大。”
王宏伟认为,这两款软件的开源,预示着结构生物学进入新时代,“未来结构生物学的研究对象和研究方式上都会发生较大变化,这实际上是对整个结构生物学领域的升级,带来了新的机会”。
“我们已经买新电脑了。”北京大学生命科学学院教授孔道春告诉《中国科学报》。
这两款软件开源后,孔道春团队就迅速配备了显卡更好的电脑。
“我已经让学生用起来了。”孔道春说,“利用传统实验方法解析蛋白结构需要跨越诸多障碍,不仅耗时、费力,还不一定能解析出来。和核磁共振、X射线晶体或冷冻电镜等类似,这些软件是一个新的、革命性的工具,将极大推动人们对蛋白质/酶的结构和生化作用机理的理解,将对生命科学、医药研究起到极大推动作用,甚至会大大加速人类文明的进程。”
“本尊”和“复现者”
“这两款软件的基本原理都是利用神经网络,依托现有的大数据进行训练,当然也包括很多专业的算法,把这几方面整合到一起,应该说是现在蛋白质结构预测精确度最高的两款软件。”王宏伟说。
“两个软件各有所长,各有自己的特点。”中国科学院大学人工智能学院教授、中国科学院自动化研究所模式识别国家重点实验室研究员杨戈对《中国科学报》说,“可以从三个方面对它们进行比较。”
一是准确度上,AlphaFold2的准确度更高。AlphaFold2预测蛋白质结构的精度已经达埃(长度单位,1埃相当0.1纳米)级,这是它的最大优势。
二是预测蛋白的复杂程度上RosettaFold略胜一筹。AlphaFold2只能预测单个蛋白质(一个氨基酸链的蛋白)。而RosettaFold可以预测蛋白质复合体(两个乃至数个有相互作用的蛋白质)。
三是对计算资源的要求方面,AlphaFold2的要求较高。“AlphaFold2在模型训练阶段对计算资源的要求一般计算中心才能满足,普通的实验室不大可能使用”。而RosettaFold的要求通常单个实验室就能满足,“具备稍好一些的计算机系统就可以‘跑’起来”。
清华大学结构生物学高精尖创新中心研究员龚海鹏介绍说,AlphaFold的第一版和RosettaFold之前的版本,包括其他团队的思路都差不多,比如,先预测氨基酸残基之间的距离,通过一些图像识别算法识别,然后再去折叠蛋白。
“那时候虽然大家的调参能力不同,但相互之间没有本质的区别。”龚海鹏说,“但AlphaFold2采用了全新的架构,从去年参加CASP14开始就崭露头角。”
2020年12月,AlphaFold2的主要研发者John Jumper做了一次报告,简单介绍了一下他们的思路,但很多细节并没有披露出来。
“因为AlphaFold2的准确率非常高,当时几乎所有研究组都想知道他们是怎么做的,有很多人想去复现它。RosettaFold是过去几月里复现得比较快的,也是复现得最好的,他们根据AlphaFold2释放出来的一些信息,相当于做了一个简化版本。”龚海鹏说,“很多研究组都进行过测试,我觉得RosettaFold离AlphaFold2还有一定的距离,其效果并没有宣称的那样好。”
这两款软件开源完全版后,龚海鹏团队对比发现,两者主体思想虽然差不多,但还是能看出有较大的区别。“有很多细节,AlphaFold2的设计更合理,因此它的效果也更好”。而现在一些自媒体和宣传材料称两者功能相当,甚至RosettaFold的某些方面表现更好,配置要求更低,“这可能会有些误导”。
“AlphaFold2对显卡的要求并不是特别高,预测的时候,如果不是特别长的蛋白链。比如,预测几百个残基、上千个残基, 1080TI这样的显卡就能‘跑’了。但要预测2000多个残基的蛋白链,就需要市面上最好的A100显卡。”龚海鹏说,“在预测方面,RosettaFold并没有太大优势,它在训练上要求的资源少一些。从双方发表的文章来看,AlphaFold2在训练的时候,资源占用大概是RosettaFold的十几倍,但模型训练好后,真正预测的时候两者并没有太大区别。”
坚持“搞事情”
软件技术的进步把蛋白质结构的获得变得“唾手可得”,这将对结构生物学的研究范式产生重大影响。
“预计会有一批实验室转换研究方向,不再做结构预测的方法研究,转而研究下游的一些问题,比如怎么用这个工具去做一些事情。但我们还会沿着这条路做下去。”龚海鹏说,“一是因为AlphaFold2的思路不会是唯一的解法。二是受其他因素影响,国内的研究团队不能随时和谷歌合作,很难用上谷歌最新的模型,所以我们需要有一个自己的版本。”
“对这个领域来说,AlphaFold2可以说改变了不少人的理念。以前生物学家可能觉得人工智能只是一个好的工具,现在说它将对这个领域带来革命性的影响一点都不过。”杨戈说。
2019年,在美国学习生活了20多年的杨戈回国,到中科院自动化所从事计算生物学方面的研究。回国后他发现,我们的生物技术研究、原创型制药行业远远没有发展起来,甚至有些学生认为生物学是个避之不及的“天坑专业”。
“如果不能很好地抓住发展机会,计算生物学将来可能就会成为我们的‘卡脖子’问题,其背后的新药开发研制都会被‘卡脖子’。”杨戈说。
龚海鹏认为,DeepMind团队的人才、硬件、软件方面的能力都很强,它能解决的训练问题一般的实验室或小团队很难去复现。我们拿它直接去训练,多半训练不出来,所以我们只能参考他的方法,开发出一些训练代价较小的等价方法。
“达到同一个目的,不会只有一条路。”龚海鹏说,“我们还会一直做下去,包括我了解的几个课题组都是这样,大家会从不同的角度汲取它的优点,融入自己的方法中继续发展。”
相关论文信息:
https://doi.org/10.1038/s41586-021-03819-2
https://doi.org/10.1126/science.abj8754