基因测序:如何破解“算的没有测的快”

2016-09-16 06:00 · brenda

在基因组学研究中,高通量测序是最重要的数据来源。然而,高通量测序技术的飞速发展,在给基因组学研究带来极大便利的同时,也带来了“幸福的烦恼”:单次测序数据量的大幅度提升,使得基因组学研究从原来的“测的没有算的快”,变为如今的“算的没有测的快”。


在基因组学研究中,高通量测序是最重要的数据来源。然而,高通量测序技术的飞速发展,在给基因组学研究带来极大便利的同时,也带来了“幸福的烦恼”:单次测序数据量的大幅度提升,使得基因组学研究从原来的“测的没有算的快”,变为如今的“算的没有测的快”。

厚度超百米的生命天书

基因组的数量非常大。一个小小真菌,如酵母的基因组总量就有10Mb,而一个人的全基因组是3Gb。如果将全部测序数据打成文字排成书,这本书的厚度将超过100米。此外,由于受到技术和方法学的限制,每个人至少要测100Gb,也就是基因组的30倍以上,才能得到相对准确的全基因组数据。

过去,测序的成本非常高。上世纪90年代初期正式启动的“人类基因组”计划历经16年时间,花费约30亿美元,才完成了一个白种人的全基因组图谱绘制。而现在,仅需要3天便能完成一个人的全基因组测序,花费在1000美元左右。随着时间的缩短、价格的降低,基因测序技术变得更加有“亲和力”。尤其是在2013年以后,好莱坞女星安吉丽娜•朱莉通过基因检测得知,她患乳腺癌以及卵巢癌的风险分别为87%和50%,因此毅然选择切除了乳腺和卵巢。 这使得基因测序技术进一步受到广泛关注。

“旧时王谢堂前燕,飞入寻常百姓家。”基因测序已从原来的象牙塔里的技术,进入更多普通人的生活。

复杂的基因分析流程

那么,基因测序为何会面临“算的没有测得快”?

通过基因测序获得的只是ATCG四种不同碱基的组合,而这并不是直观的结果;要将测序结果进行解读,还需要在高性能计算机上进行大量的演算和分析。

在高性能计算机中计算时,需要多个软件协同工作,一步一步完成数据分析,最终才能呈现出可读的结果。得到最终结果,通常要经过样本采集,提取组织DNA,进入测序仪测序,随后进入计算机对测序数据进行标准化计算,最终进行数据的分析、核验。

提升基因计算应用效率

然而,计算分析的过程非常复杂并且相当耗时,涉及到多款软件。每个软件的算法不同,所需要的计算资源不同。如何才能理解软件所需要的资源,合理配置计算环境?

采用浪潮“天眼”(TEYE)高性能应用特征分析系统(以下简称浪潮天眼),可以获得软件的运行特征,以便指导资源的配置。

据了解,通过浪潮天眼可以更全面、更精细地分析基因测序软件特征,提供软硬一体化的全方位优化方案。目前,浪潮已经为北京生命科学研究所、中国科学院北京基因组研究所、沙特椰枣基因组计划、中科紫鑫、上海儿童医院、苏州大学医学部等提供基因计算方面的支持。

关键词: 基因测序