在一项新的研究中,英国剑桥大学公共卫生与初级保健系的徐宇和Michael Inouye领导的一个国际研究小组构建了一种直接从基因型预测多组学数据的独特资源:OmicsPred。相关研究结果发表在Nature期刊上,论文标题为“An atlas of genetic scores to predict multi-omic traits”。
有一种对未来的设想,包括像《星际迷航(Star Trek)》中的医用三录仪(medical tricorder)那样的设备,一种手持式设备或纳入移动设备的应用程序。在快速无痛的扫描之后,只需在患处挥动该设备,就能得到预后,比如原形态形成综合征(protomorphosis syndrome),它是一种恶性的DNA疾病,会让人以最有趣的科幻小说方式退化。虽然这种类型的设备还停留在科幻小说中,但许多医疗三录仪的功能已经以庞大的实验室设备和分布在多组学领域的数据库的形式存在。
对疾病或疾病易感性的彻底调查,需要大量不同组学(omics)基因组学、表观基因组学、转录组学、蛋白质组学和代谢组学。多组学(multi-omics)的收集成本高,数据密集,使得它在研究中有些罕见。这些领域的知识都在充满了对人体细胞功能和疾病关联的详细分析的数据库中。此外,许多多组学研究都是针对特定部分的人群来探究疾病机制。对多组学更广泛的捕捉可能能够证实推断的知识并发现隐藏的生物途径。
OmicsPred门户的主要功能,用于获取多组学性状的遗传评分。图片来自Nature, 2023, doi:10.1038/s41586-023-05844-9。
在这项新的研究中,这些作者使用机器学习方法为48813份健康血液样本的17227个生物分子性状构建了遗传分数,可以预测13668种RNA转录物、2692种蛋白和867种代谢物的水平。他们随后在七个不同的独立队列中验证了这些遗传分数。
这些作者预计,这一新资源将广泛用于探究多组学性状以及与生物学性状的关联性。目前,这些遗传分数所预测的分子性状只反映了来自以欧洲白人血统为主的健康献血者的训练数据集的遗传性和变异性。这些作者计划加强和完善OmicsPred资源中可用的遗传分数范围,并通过更新训练数据集扩大祖先的多样性。