本文转载自“生命奥秘”。
机器学习和大数据如何帮助化学家搜索庞大的化学分子库,获得更好的药物?
2016年,制药公司Sunovion给一群经验丰富的员工布置了一个不寻常的任务。这些化学家都被要求参与一个游戏,看看谁可以发现最新的新药。他们的工作站里有数百个化学结构的网格,其中只有十个被标注了相关结构的生物效应。化学家们不得不使用自己辛苦学来的化学结构和生物学知识,选择其它可能可以成为候选药物的分子。该比赛一共有11名选手,10名选手纠结了几个小时。但是,有1位选手在数毫秒之内成功确定了候选物分子。值得指出的是,该选手其实是该公司设计的药物设计算法。
该计算机程序的开发者是Exscientia公司(一家使用人工智能(Artifical Intelligence, AI)设计药物的初创公司)的化学信息学主管Willem van Hoorn。由于Exscientia希望与Sunovion展开新的合作,所以必须让Sunovion相信该算法的潜力。Hoorn指出,结果如他所料。鉴于在20次游戏中,算法战果颇丰,Hoorn松了一口气。算法至少掌握了一些化学原则;只有一位化学专家打败了算法。
接下来,Exscientia和Sunovion展开合作,联手开发精神病药物。Sunovion的计算化学总监Scott Brown表示,这次比赛向药企展示了算法在药物开发上的潜力。
事实上,像Exscientia这样使用计算机来探索浩瀚化学宇宙的企业和学术团体非常多。化学家估计,他们可以制造1060种具有药物特征的化合物——这比太阳系中的原子的数目还要多。使用算法对数百万种化合物的性质进行编目、表征和比较,可以帮助研究人员快速、经济地找到最佳候选药物。支持者认为,这些策略可以使药物更安全,临床试验中的药物失败率更低,同时还有助于发现新类型的药物。此外,AI也可以帮助探索未被探索或被否认的化学空间。
但是许多药物化学家仍然认为Excientia可能是在炒作,他们不相信仅凭代码就可以探索复杂的化学宇宙。同时AI的倡导者也承认,许多尝试都是失败的:计算机生成的化合物可能难以合成,如3原子环或4原子环,或者包含一些会引发安全问题的反应性基团。van Hoorn指出,当研究人员也不了解某种分子的特性时,算法执行的结果就会非常糟糕,而得到的化合物也会非常可笑。但他补充,如果将人类专家和计算机结合起来,效果会非常好。如果计算机科学家们和那些真正的化学家进行合作,相信会得到一些非常有用的想法。
太空探索
如果要探索化学宇宙,那么绘制图谱将非常有用。2001年,瑞士伯尔尼大学(University of Berne)的化学家Jean-Louis Reymond开始使用电脑绘制出尽可能大的化学空间。16年来,他得到了世界上最大的小分子数据库——包含1660亿个化合物的巨大虚拟数据集——GDB-17。该数据集包括由17个原子制成的所有化学上可行的有机分子——Reymond的算法可以处理的规模极限。Reymond表示,使用一台计算机来编译数据库中的化合物清单,现在只需要10多个小时。
为了更好地绘制化学宇宙地图,Reymond提出了组织化学宇宙的方法。他从元素周期表中获得灵感,将化合物宇宙分成多维空间,其中相邻化合物具有相关性质。根据42个特征分配位置,例如每个化合物具有多少个碳原子。
对于已经上市的每种药物,有数以百万计的化学物质几乎与之相同——只需要移动其中一个氢或双键。其中一些可能比已上市的药物更有效。化学家们不可能毫无顾忌地想到所有这些变化。Reymond指出,没有办法只用笔和一张纸来获得所有这些异构体。
但是,Reymond和他的团队可以通过寻找化合物之间的相似性来识别已上市药物的异构体是否具有临床潜力。以一个特定药物作为起点,该团队可以在3分钟之内梳理数据库中的1660亿个化合物,提出可能有效的候选药物。在证明原理实验中,Reymond使用一个已知的可以与烟碱乙酰胆碱受体(神经系统和肌肉功能失调疾病的靶点)结合的分子,提出了344种相关化合物的最新列表。该团队合成了其中三个,并发现两个可以有效地激活该受体,同时可用于治疗老龄化引起的肌肉萎缩。Reymond表示,这种方法就像使用地质图去找金矿。你需要一些方法来选择最后的挖掘点。
另一种方法是使用电脑来进行多处挖掘,不过不必太在意起始位置。在药物开发过程中,这意味着以硅胶芯片检测大量分子,确定能结合给定蛋白的小分子。首先,研究人员必须使用X射线晶体学获取蛋白质的结构,以确定其结合位点的形状。然后,使用分子匹配算法,计算化学家可以通过分子库来找到任何给定位点的最佳拟合。
随着计算机运算能力的不断增强,这些算法的功能将有所改善。2016年,由加利福尼亚大学旧金山分校(University of California, San Francisco)的化学家Brian Shoichet领衔的小组,展示了这种方法在寻找新一类止痛药方面的潜力。该小组筛选了300多万种市售化合物,结果找到了可选择性激活μ-阿片受体信号、减轻疼痛,但不干扰紧密相关的β-arrestin信号通路(该通路被认为与阿片类药物的副作用有关,包括便秘和呼吸减慢)的候选分子。研究人员迅速检索了整个分子库,最后得到了23种可能有效的分子,以进行进一步的研究。
在试管试验中,有7种候选分子有需要的活性。经过后续的研发,研究人员讲其中一种转变为PZM21——一种在不激活β-arrestin的情况下作用于μ-阿片受体的化合物。总部位于加利福尼亚州旧金山,由Shoichet共同设立的生物技术公司Epiodyne目前正在根据研究结果开发更安全的止痛药。Shoichet计划使用相同的方法来寻找调节其它G蛋白偶联受体(G-protein-coupled receptor, GPCR)——这一蛋白家族约占药物靶标的40%——的化合物。
Shoichet团队也进行了类似的实验。Shoichet的数据库包含一亿种虚拟化合物,这些化合物从未被制造过,但应该易于合成。制药公司也在测试这种方法:总部设在马萨诸塞州剑桥的生物技术公司Nimbus Therapeutics将筛选与天然化合物具有类似性质的虚拟化合物。药物审批机构仍在观望,但Nimbus Therapeutics公司的首席执行官Don Nicholson表示,这至少提供了一个新的药物设计方案,“以后的新药可能都来源于这种虚拟分子库”。
这样的虚拟筛选的初步结果动摇了Shoichet关于化学宇宙的核心假设之一:应当关注成熟的、上市药物较丰富的区域。有人认为,分子表征较充分的区域存在大量具有生物活性的分子,在其它未知区域寻找候选分子纯属浪费时间。Shoichet继续指出,在他的整个职业生涯中,他都是相信这种推理的。这其实有一定道理,虽然没有证据支持这一理论。尽管他的1亿个化合物筛选结果尚未发表,却已经引起了人们对较少探索的化学空间区域的兴趣。Schoichet开始觉得,那些尚未开垦的处女地可能遍地黄金。
硅片测试
这些数据搜索方法被反复尝试和测试,但是计算机只会遵循脚本指令。计算机辅助药物研发的最新前沿是机器学习,即算法使用数据和经验,不断自我调适、了解和预测哪些化合物与哪些靶标结合、发现人眼不可见的模式。大约十几家公司已经开发了药物寻找程序,希望可以与大型制药公司合作进行测试。
Exscientia首席执行官Andrew Hopkins强调了这些AI方法的实力。目前发现候选分子,并进行临床前检测平均需要4.5年,并且化学家经常合成千上万的化合物,从中找出有潜力的分子(即使这样,该分子最后进入市场的概率也极其小)。Exscientia的方法——使用各种算法,包括让Sunovion的研发人员印象深刻的算法——可能能够将这一时间缩短到仅仅一年,并缩小了药物研发涉及的化合物规模。
2015年,Exscientia结束了与Sunovion母公司Sumitomo Dainippon Pharma为期12个月的合作。研究人员训练了他们的AI工具,找到同时调控两个GPCR的小分子,最后只需要合成不到400种化合物,以便识别出良好的候选分子。Hopkins指出,目前最后得到的药物正在进行精神病的临床试验。自5月以来,该公司已经与位于巴黎的赛诺菲和位于英国布伦特福德的GlaxoSmithKline(GSK)签署了价值数亿美元的交易。
总部位于加利福尼亚州圣布鲁诺的AI药物设计公司Numerate的首席技术官Brandon Allgood表示,除了识别潜在药物之外,机器学习算法还可以帮助药物开发者早日决定哪些化合物可以被排除。如果一个药物在几个月后的毒性测试或吸收测试中失败,那么合成和测试它将毫无意义。Allgood还指出,AI只需要一毫秒就可以确定是否淘汰一个分子。Numerate今年与制药公司达成两项交易,其中包括与法国Servier公司就AI发现的药物展开治疗心力衰竭和心律失常的临床试验的合作。
目前行业投资也在蓬勃发展,但AI在药物开发上的潜力还有待证明。尽管Reymond的分子库与其它分子库相比是巨大的,但它只涵盖了化学宇宙的很小一部分(图“化学宇宙”)。尽管他的数据库中有1660亿个化合物,但他距离自由遨游于化学宇宙还十分遥远,现在他能做的,也不过是记录宇宙中目前能看得见的“星星”。依赖于将药物与蛋白质进行匹配的筛选方法首先需要明确蛋白晶体结构,才能产生最佳结果,并且得到蛋白晶体结构需要时间、金钱和专业知识。此外,蛋白结晶法也很难捕获运动中的蛋白质,因此提供的信息也十分有限。机器学习算法的表现也很大程度上依赖于培训数据,这体现在当遇到不同于之前看到的分子的化合物时,算法的表现会非常差。更重要的是,程序以黑箱的形式运行,并且不能说明选择一个候选分子的理由。
许多算法预测的候选分子几乎难以在实验室中合成。化学家必须努力地找出合成该候选分子的方法,这个过程可能花费几个月或更长时间。不仅如此,这些算法也不能保证候选分子一旦制成就能有效。Reymond的方法对化合物的预测的正确率只有5-10%,这意味着化学家必须检测20种以上的化合物,才能找到一个有效的分子。Reymond认为算法开发药物的瓶颈在于合成化合物的能力。为此,他最近把他的化学宇宙简化,从中挑选出了1000万个容易合成的分子。
Relay Therapeutics公司的首席科学官Mark Murcko认为,计算化学家应该少关注新算法策略,更多地关注改进用于培训算法的数据集。他指出,做出更好的预测模型的最好的方式之一就是提高输入数据的数量与质量。Relay和其他公司都鼓励化学家与计算科学家密切合作,合成人类和算法合作筛选出的化合物,并利用最终结果为今后的决策提供信息。
对于Hopkins来说,这样的合作是关键。计算机科学家花了几十年的时间来编写程序,打败国际象棋大师:1997年,IBM的深蓝机器人打败了Garry Kasparov。但人类象棋大师的失败并没有标志着国际象棋的结束。相反,Kasparov创造了一个双打版本,其中每一方由人类玩家和人工智能组成。Hopkins指出,人和人工智能结合起来,会比任何一个人或一个算法的表现都要好。他希望通过数据交换、创造力和常识来变革药物研发。Hopkins相信,现在制药领域也到了需要Kasparov与深蓝联手的时刻了。
原文检索:
Asher Mullard. (2017) The drug-maker's guide to the galaxy. Nature, 549: 445-47.