2022世界人工智能大会|许锦波:打造生物经济时代基础设施

2022-09-02 20:24 · 生物探索

生物计算已经成为AI发展的下一个明珠。9月2日,2022世界人工智能大会(WAIC)指导举办的2022上海生物计算论坛上,“AI蛋白质折叠奠基人”、分子之心创始人兼首席科学家许锦波教授发表题为

生物计算已经成为AI发展的下一个明珠。9月2日,2022世界人工智能大会(WAIC)指导举办的2022上海生物计算论坛上,“AI蛋白质折叠奠基人”、分子之心创始人兼首席科学家许锦波教授发表题为《AI蛋白质研究新进展》的主题演讲,公布分子之心自主研发的AI蛋白分子发现、优化与设计平台MoleculeOS的最新研究进展。

“AI蛋白质折叠奠基人”、分子之心创始人兼首席科学家许锦波教授

许锦波教授表示,近年来,人工智能的深入发展,让蛋白质的结构及功能研究取得了巨大的突破,从传统的物理和统计方法快速走向最新的机器学习乃至深度学习算法,分子生物学界的研究范式也从基于序列的研究转向基于结构的研究,极大提高了蛋白质从头设计的效率。而在产业界,AI蛋白质发现和设计也由此乘势而起,成为全球瞩目的热门赛道。

但是,由于蛋白质分子的作用机制极其复杂,即便使用新兴的AI方法,也仍然存在很多有待进一步探索和解决的问题。此外,国内也一直没有一个功能完整的AI蛋白质设计和优化平台,为研究界的技术攻关和产业界的工业化落地推进提供助力。

分子之心打造了业界首个功能完整的AI蛋白质预测和设计平台MoleculeOS。该平台具备两大重要功能:运用数据驱动的深度学习方法直接设计和生成所需要的蛋白;通过分析蛋白质的表达性、稳定性、成药性等特性,帮助行业专家快速识别和产生最合适的蛋白质,推动实验室研究成果在产业领域的规模化应用。“MoleculeOS 是分子之心正着力构建的AI驱动的蛋白质设计新引擎,我们希望把它打造成中国生物经济时代的基础设施。”许锦波教授表示。

分子之心打造了业界首个功能完整的AI蛋白质设计平台MoleculeOS

MoleculeOS具备全球领先的蛋白质结构及特性预测和蛋白质设计能力,在蛋白质从头设计、蛋白质优化、抗体重设计、蛋白质以及复合物结构预测、蛋白-蛋白对接、蛋白质侧链预测、蛋白质功能预测、蛋白质语言模型等关键算法和模块方面,目前已开发出十余项世界领先的 AI 算法,计算结果远超文献报道及全世界已公开发表的最好结果。

分子之心基于MoleculeOS开发出十余项世界领先的 AI 算法

例如,在蛋白质结构预测方面,近年来,DeepMind、Baker 等研究团队相继推出了 AlphaFold2、RoseTTAFold 等 AI 蛋白质结构预测模型,在推动生物行业巨大进步的同时,这些 AI 算法始终存在一个重大局限,即高度依赖 MSA 及其衍生的共同进化信息和序列谱来预测蛋白质结构,无法对孤儿蛋白等缺乏同源进化信息的蛋白质进行高精度结构预测。在此背景下,“不使用同源序列和共进化信息的 AI 蛋白质预测方法”在近两年成为了业界共同探索的新方向。分子之心团队基于MoleculeOS平台,提出了基于AI 的单序列蛋白质结构预测算法 RaptorX-Single, 可以在不使用 MSA(来自同源蛋白质的多序列比对)的情况下,从其一级序列直接预测蛋白质结构,并实现超越 DeepMind AlphaFold2等方法的性能。同时,RaptorX-Single 所采用的模型更轻量,参数不到 Meta ESMFold 方法的三分之一。该算法进一步扩大了蛋白质结构预测的探索效率和边界。

在蛋白质从头设计方面,分子之心MoleculeOS平台拥有多种世界领先的能力。比如,其蛋白质序列设计算法在4个大家普遍使用的数据集上表现出了全球最高的NSR;蛋白质主链结构设计算法,全球首次突破复杂结构的蛋白质主链结构从头设计,可以设计出各种各样自然界不存在的、非常复杂的蛋白质构象,比自然界的蛋白质更稳定;并首创无需模板的蛋白质配体生成算法,可以生成自然界不存在的、全新的结合蛋白质。

此外,基于MoleculeOS平台,分子之心还开发了世界上首个端到端的蛋白质柔性对接算法,可实现两个蛋白质间更精准的对接。

在蛋白质优化方面,分子之心开发用于预测单点突变对蛋白质性能影响的 AI 算法,不需要实验数据,即可对单点突变进行预测,算法的性能大幅刷新世界记录,是该领域目前世界上最精确的算法。在抗体重设计算法方面,分子之心构建了业界误差最小的CDR区间重构算法,可与分子之心的蛋白质优化模块结合,用于对抗体的CDR区间进行优化。在蛋白质结构预测方面,分子之心的蛋白质及复合物结构预测算法在公开数据集上测试,效果远好于 DeepMind 的 AlphaFold-Multimer。分子之心还开发了世界上首个不使用rotamer库的端到端的蛋白质侧链预测算法,不仅在侧链二面角的预测误差上远小于业界广泛使用的SCWRL软件,预测速度也快于SCWRL。在蛋白质功能预测方面,分子之心通过使用图神经网络以及预测的结构信息,以10-30%的优势领先于全球范围内所有公开的蛋白质功能预测算法。在蛋白质语言模型方面,分子之心只使用了5.7%的Facebook所使用的训练数据,训练出来的蛋白质语言模型在蛋白质接触预测中性能超越了Facebook训练出来的模型。

“过去几年,AI蛋白质结构预测领域取得了巨大的进展,颠覆了蛋白质研究领域的研究范式,挖掘出生物技术的巨大潜力,但蛋白质的研究仍有很多未解的难题,”许锦波教授表示。比如AI预测蛋白质相互作用的精度,尤其是抗体抗原的相互作用上,远没有达到令人满意程度, 孤儿蛋白的结构预测、蛋白质与其他分子的相互作用预测等问题仍未解决。“我们的目标是设计真正有实用价值的蛋白质,驱动生物产业创新发展,释放生物计算领域新动能。”