30x全基因组分析需要多久?他们只用两个半小时

2017-04-01 08:45 · brenda

一个30倍测序深度的人类全基因组数据FASTQ文件大约是200GB,单台高端服务器上对该数据进行计算分析需要20小时以上。而在3月31日的第四届NGS创新开发者大会上,格致大数据的研究人员表示,他们只需两个半小时便能完成从FASTQ到VCF的整个处理流程。

图:NGS创新开发者大会活动现场

过去几年二代测序(NGS)技术快速发展,精准医疗也作为战略新兴产业被正式列入国家“十三五发展规划”。随着最新一代测序仪的发布,个人全基因组的测序价格即将进入到百美元时代,随之而来的海量基因组数据的计算速度慢、分析效率低下、存储困难、分析存储成本逐渐逼近测序成本、数据安全等痛点问题逐渐成为行业的重大挑战。基因数据的计算与解读一直都是基因检测的重要环节。在数据激增的情况下,如何更快速,更准确的进行数据分析和解读,将是基因检测领域下一个命题。

基因测序是实施精准医疗的有力武器,而一个完全测序的人类基因组包含100GB至1000GB的数据量,这给数据的解读带来了很大的困难,需要专门的数据库进行数据信息的横向和纵向比对分析。在生物信息学分析中,从测序下机数据的质量控制、比对到变异检测,都是非常消耗计算资源的步骤,计算复杂度高,相应的耗时也久,也是给很多希望扩大生产规模的生物信息企业带来困扰的部分。

一个30倍测序深度的人类全基因组数据FASTQ文件大约是200GB,单台高端服务器上对该数据进行计算分析需要20小时以上。随着精准医学及基因检测技术的普及,一个三甲医院一天可能产生的样本数量可能达到上百个;这些测序数据的分析计算不仅耗时长达数日,并且数据传输的本身,不管是线上还是线下,都存在着安全隐患并在传输过程中浪费了数天时间。

2017年3月31日,第四届NGS创新开发者大会在杭州梦想小镇盛大开幕,南京格致基因生物科技有限公司旗下专注于基因大数据处理技术研发和解决方案提供的格致大数据携自主研发的Xiphias高性能生物信息计算平台重磅亮相。

据格致大数据总监黄柯博士介绍,Xiphias高性能生物信息计算一体机搭载了自主研发的基因数据处理芯片,大大提升基因数据处理速度,提供了从原始数据到报告生成的全流程一键解决方案。处理30倍深度人类全基因组数据,一台Xiphias一体机只需要两个半小时完成从FASTQ到VCF的整个处理流程;5节点的Xiphias集群更能进一步提高效率,在数分钟内完成序列比对、半小时内完成整个处理流程。

黄柯博士还表示他们将在今年下半年推出Xiphias2.0,Xiphias2.0会在Xiphias1.0的基础上实现更高的加速比,预计可达到 30~50 倍的数据处理加速比。在不久的将来,越来越多的基因数据分析应用,将有望成为“立等可取”的实时服务,并且所有分析工作全部在本地完成,最大限度保证用户数据的安全及隐私。

图:Xiphias生信计算平台示意图

Xiphias 高性能生物信息计算一体机搭载了格致大数据自主研发的基因数据处理芯片,利用软硬件协同的方式极大地提高了基因数据处理效率。传统的生物信息学分析应用,流程步骤多,操作复杂。针对这一问题,Xiphias提供了从原始数据到报告生成的全流程一键解决方案,满足科研院所及医院临床的使用需求。同时,Xiphias也可以为科研机构、测序中心、医疗机构提供方便快捷的本地化计算解决方案,保证数据的安全。

图:Xiphias数据分析流程

图:Xiphias压缩性能示意图

图:Xiphias一体机性能示意图

图:Xiphias集群性能示意图

*Server: Intel Xeon E5 20core CPU @ 2.3GHz + 256GB DDR4 + 1TB SSD

黄柯博士介绍到,Xiphias生信计算一体机有着较传统软件近十倍的加速比,Xiphias集群更可达到数十倍的加速,可以快速对基因数据进行比对、排序、压缩及变异识别等分析,为基因数据计算的痛点、难点提供了高效易用的完整平台。目前Xiphias已建立了经济、高效、快速的数据分析流程,相较传统软件具有更强的扩展性,更快的速度,更高的可靠性,更低的使用成本。

关键词: 基因 数据分析