这项研究已于7月16日以“Deep learning sequence-based ab initio prediction of variant effects on expression and disease risk”为题发表在Nature Genetics杂志,报告称,ExPecto有朝一日可帮助选择药物疗法,并帮助阐明进化是如何塑造我们的遗传密码的。
“暗物质”区域
我们的DNA中含有的基因可以作为蛋白质的蓝图,而蛋白质是我们身体中负责运送氧气、与其他细胞沟通和对抗感染等重要任务的主要分子。蛋白质编码序列占我们整个基因组的比例不到百分之二。
基因组中除编码区域之外的98 %组成,即非编码蛋白质的“暗物质”部分,会启动或关闭基因表达。大多数基因突变都是在这个非编码区发现的。突变本质上是一种遗传“排序”(typo),添加、删除或改变基因组的序列。非编码区的突变有时会导致基因于错误的时间在身体的错误部位表达或不表达,从而增加癌症等疾病风险。
由于DNA的非编码部分太大,很难确定具体的突变原因。先前的研究将许多个体的基因组与特定疾病进行了比较,以寻找这些个体共有的突变。然而,对于更罕见的突变,这种方法变得越来越棘手。此外,DNA链有时是一长段遗传的,所以科学家很难确定哪一段特定的遗传密码是麻烦制造者。
图片来源:CC0 Creative Commons
ExPecto程序
利用最新方法,美国Flatiron Institute计算生物学中心(Center for Computational Biology ,CCB)和普林斯顿大学的发明者计算了在不同组织中超过1.4亿个突变的遗传结果。研究人员还精确地确定了可能增加一些免疫相关疾病风险的突变,包括慢性乙型肝炎病毒(HBV)感染和克罗恩病。
具体来说,研究人员利用单一参考基因组,训练ExPecto程序来了解DNA如何控制200多个不同组织和细胞类型的基因表达。根据这些信息,ExPecto可以预测任何突变的影响,甚至是科学家以前从未见过的突变。
研究人员先用ExPecto来预测导致克罗恩病、慢性HBV感染和白塞病的突变,随后通过实验验证该结果。对于这三种疾病,作者之一Chandra L. Theesfeld发现,与之前的研究相比,ExPecto预测的突变对导致相关疾病具有更大的潜力。
未来运用
文章通讯作者Olga Troyanskaya评价该程序时说:“ExPecto可以检查任何基因变异,并预测其对基因表达的影响,这太令人兴奋了。”
未来,研究人员希望ExPecto能帮助医学专家确定患者疾病的遗传因素,并开发适合患者基因组的治疗方法。论文合著者Jian Zhou说:“一旦知道哪种蛋白质受到影响,以及蛋白质会起什么作用,我们就可以设计出能够解决问题的药物。例如,如果肌体不能产生某种蛋白质,那么就可以设计一种疗法来弥补缺失的蛋白质。”
据悉,任何人都可以访问ExPecto,对蛋白质编码基因附近超过一亿四千万个可能突变的影响进行预测。这些结果可以在网上作为人类基础(HumanBase)的一部分获得(人类基础是由研究小组开发的一个关于人类生物学和疾病的数据驱动的预测系统)。访问者可以输入一个基因,然后就能看到所有在218种组织和细胞类型中可能影响该基因表达的突变。
责编:浮苏
参考资料:
AI accurately predicts effects of genetic mutations in biological dark matter