Nature系列期刊 | 首创引入官能团信息,实现分子性质预测领域新突破

2023-04-10 16:13 · 生物探索

论文介绍了一种多视角异构图神经网络模型PharmHGT以及其在分子属性预测下游任务的应用

2023年4月3日,德睿智药团队在Nature系列期刊《Communications Chemistry》发表了题为“Pharmacophoric-constrained heterogeneous graph transformer model for molecular property prediction”的研究论文。论文介绍了一种多视角异构图神经网络模型PharmHGT以及其在分子属性预测下游任务的应用,该模型表现较以往模型有显著提升,在多个数据集上均达到目前最优表现(State-of-the-Art,SOTA)。PharmHGT为德睿智药人工智能制药平台Molecule Pro的诸多原研AI模型之一。

1681114608964889.jpg

数据统计发现,造成药物研发失败的主要原因中,药代动力学性质和毒性问题所占的比例接近50%[1]。因此,如果能快速且相对准确地在临床前研发过程中预测所设计小分子的ADMET性质,能加速研发进程并潜在提高后续药物研发的成功率。

然而,如何让AI模型更好地理解小分子的结构信息,是提高模型表现的瓶颈之一。既往的AI模型在基于图的分子表征中,大部分采用分子的“原子”和“键”作为图神经网络的“节点”和“边”,但忽略了药物化学中重要的官能团信息(药物分子空间分布中的最基本结构,即分子中与受体结合产生药效作用的片段)。为了得到更好的分子表征,德睿智药AI团队与药物化学团队创新性地将官能团信息引入AI预测模型,在算法设计上使PharmHGT不仅能学习小分子原子和化学键级别信息,还能学习到丰富的官能团信息。

在九个分子属性数据集上,PharmHGT模型性能表现较以往的SOTA(业界表现最优)模型以及预训练模型有显著提升,可提高AI药物设计的有效性,同时为该领域研究提供了一个新的Benchmark。

以下为PharmHGT模型细节以及实验结果:

01 PharmHGT模型构建

PharmHGT是一种多视角异构图神经网络模型。相较于被广泛使用的同构图,异构图涉及不同类型的节点和边之间的交互关系,能够提供更多的信息用于模型学习。PharmHGT由三个主要模块构成,即多视角分子图构建、不同节点和边的信息聚合(Message Passing)、通过注意力机制整合多视角分子图(Read-out)。

1681114697774219.png

图1. PharmHGT框架图

在分子图构建过程中,首先利用BRICS对分子进行拆分,即将分子划分成含有官能团信息的片段,随后结合原子以及化学键的视角,构建一个包含两类节点和三类边的异构分子图(如下图)。

1681114719546626.png

图2. PharmHGT模型-异构分子图

接着,基于Transformer架构,将上述异构分子图中包含的化学元素、化学键以及官能团信息转换为AI模型能够理解的语言,并经过消息传递过程,获得不断更新的异构分子图模型。随后,把官能团与节点之间的联系和反应信息聚合起来,并将这些信息与原子级特征结合在一起,形成分子的全局特征,即通过原子级(Atom-level)、官能团级(Pharm-level)、节点级(Junction-level)三层视图特征,得到分子的最终表示向量。在这个过程中,引入的注意力机制还能够帮助模型更加准确地区分不同分子特征的重要性,自适应地赋予更重要的特征以更高的权重,从而提升下游任务表现。

02 实验结果

论文选择了9个基准分子数据集进行测试,其中包括用于分类任务的BBBP、BACE、ClinTox、Tox21、SIDER和HIV,以及用于回归任务的ESOL、Freesolv和Lipophilicity。

实验数据显示,相较以往AI模型,PharmHGT在所有数据集上都取得了更优的表现。

1681114748891459.png

1681114769986445.png

表:分类和回归任务实验结果

后续的消融研究也证明,引入官能团信息会让模型拥有更好性能。并且在分子毒性预测的案例研究中,通过烷化剂类抗肿瘤药的案例验证了PharmHGT针对官能团的学习能力,它可以将具有类似官能团的烷化剂类抗肿瘤药聚类在一起,例如环磷酰胺等,相较其他基于预训练的模型有明显提升。

03 总结

PharmHGT构建了一个新颖的包含原子、化学键和官能团信息的多视角异构分子图,从而在下游分子性质预测任务上显著提高其准确度。PharmHGT通过准确且快速地预测分子的ADMET性质,为药物开发人员提供了更加全面的分子信息预测参考。