基于AWS云服务构建超快速和低成本的基因大数据分析系统

2017-07-28 15:50 · gale

随着基因检测的应用范围越来越广,基因测序的成本越来越低,收益人群也越来越多,导致基因数据的规模呈爆炸性增长趋势。

事件背景

时间:2017-7-26 14:25-15:10

会议:2017 AWS北京技术峰会

分会场:大数据技术专场

受邀原因:人和未来利用IT的技术在BT行业创造了最新的记录

荣誉:继2014年华大基因之后,第二家被邀请的BT企业,成立仅3年


基于AWS云服务构建超快速和低成本的基因大数据分析系统

人和未来生物科技(长沙)有限公司(以下简称:人和未来)是一家利用基因技术(BT)和信息技术(IT)为精准医疗和精准健康行业提供解决方案的国家高新技术企业。公司总部设在北京,于长沙和杭州各有分支结构。公司建有国内领先的基因测序和基因分型技术平台,是2016年首批国家发改委认定的国家基因检测技术应用示范中心之一,拥有第三方医学检验所和高通量测序临床应用实验室;在大数据领域,公司依托在基因和信息技术交叉领域里的研发优势,组建了“基因信息大数据应用技术湖南省工程研究中心”,并建设了从基因信息大数据产出、压缩存储、传输、高性能计算到基因组数据解读,再到“基因-环境-疾病-药物”相关性挖掘的一整套研究体系。


众说周知,人体由一个受精卵细胞发育而成,成人体内的大约1014个细胞具有相同的遗传物质——DNA。基因是DNA上的功能片段,是人体健康的最重要内在因素,是人与人之间差异的根本所在。对于这些差别的检测,即基因检测,可以用于筛查和诊断遗传疾病(比如,先天愚型唐氏综合征)和体细胞突变疾病(比如,肿瘤)等,也可以与生活习惯、用药、病史、环境等因素相结合对人体健康进行个性化干预和指导。

随着基因检测的应用范围越来越广,基因测序的成本越来越低,收益人群也越来越多,导致基因数据的规模呈爆炸性增长趋势。以Illumina公司最新产品Novaseq测序仪为例,满负荷运转产生数据速度为6TB/30小时,考虑到一个人的基因组测序数据文件大小大约为200 GB,也就是说该机器相当于每小时产出一个人的基因组测序数据。根据已订购的各类测序设备估计,2017年全国范围内的基因产业数据将超过100PB(1PB=1百万GB)。


发展趋势

测序数据所为原始数据,需要经过大量计算和解读才能显现其临床和健康意义。而如此大规模的数据,给计算解读提出了严峻的考验。目前,分析一个人基因组200 GB数据的单机计算耗时为30小时,可以想见,若以这样的数据分析计算速度来应对已经到来的大数据潮流,其结果必然是数据分析赶不上生成的速度,导致数据堆积。所以,计算加速提高计算资源的效率成为人们迫切需要解决的问题。

人和未来在2014年成立之初就在大数据压缩存储、传输和高性能计算方向上进行了前瞻性部署。而且结合国内实际情况,在计算加速领域同时开发了弹性云计算和本地硬件加速两个解决方案。

云计算是一种基于互联网相关服务的资源虚拟化计算模式。具有良好的动态扩展性,可以实现每秒10万亿次量级的强大计算能力,而且“不求所有,但求所用”的特点是其成本较低的原因。高性能计算领域的人都知道,机器规模的扩大并不能线性提升计算性能,大数据传输所导致的IO墙使得计算资源规模扩大到一定程度后反而会显著降低计算性能。

人和未来依托AWS云平台构建云计算加速系统,以创新的数据分发技术、数据混洗技术为基础,通过开发高性能分布式数据库StageDB,结合生物基因组知识,成功实现18分钟内计算完成人类基因组400 GB(55x)数据的分析任务,使计算性能和计算资源规模之间的关系近似于理想的线性关系。

据该公司CTO宋卓博士介绍,这一GTX.WGS技术的研发相当于打了三场战役。首先,针对超大型数据向250台AWS EC2服务器的高速分发,人和未来根据基因组生物学特性和高性能计算数据均衡性需求开发了独特的大数据切分技术,将原本66分钟的任务压缩到1分钟内完成,使得整体分析任务的计算时间降低到3-4小时。第二场战役,公司研发人员采用了AWS S3对象存储方案,开发了数据混洗技术,对切分出的海量数据文件进行了重排,实现了20-25分钟内完成109条DNA片段在基因组上按照位置进行排列的任务,将整个计算时间压缩进60分钟。虽然这个计算性能已经达到了国内外基因大数据分析性能的领先水平,但人和未来仍然不满足这一成绩,进一步在数据存储方面进行攻关,开发了一套高层次化的Key-Value数据库StageDB,使得上一步的数据重排时间减小到40秒,整体时间缩短为18分钟,赢得了战役的胜利,获得了2016年11月第11届国际基因组学大会(ICG)计算加速竞赛的冠军。

在硬件加速方面,人和未来自行设计和研发了基因数据分析的FPGA硬件加速卡,并构建了基因数据分析专用计算机GTX-One。该单机能够在15分钟内完成30X全基因组的比对和突变分析。计算速度处于世界第一的同时,也刷新了基因数据分析的最低能耗纪录。

除此之外,人和未来开发了集基因大数据压缩存储、满带宽传输、数据分发三大功能一体的解决方案GTX.Zip,通过超高的基因数据压缩效率实现存储成本的大量降低,通过压缩后数据传输、满负载传输、边压缩边传输等特性为基因大数据的分发和传输提供了除寄送硬盘以外的高效可操作性方案。

实际上,结合自行开发的基因大数据解读方案,人和未来还构建了一整套基因测序数据的分析体系,实现了自数据从测序仪下机之后的全部快速处理过程,补齐了基因检测服务中的数据分析耗时、耗资源的短板,推动基因检测走向更多人群和更大的应用范围,为大健康产业解决了痛点为其打不前景提供了动力。