加州大学的科学家近日公开了他们自称世界最大的癌症基因组数据库。该数据库将为对美国国家癌症研究院基因组项目所产生的巨量测序数据进行分析的科学家带来便利。
这个数据库被称为“癌症基因组学中心(Cancer Genomics Hub, CGHub)”,是由加州大学圣塔克鲁斯分校的一个团队建立的,保存了来自癌症基因组图谱(The Cancer Genome Atlas, TCGA)的原始测序数据。该图谱是NCI对10000位患有20种癌症的患者的正常细胞及肿瘤细胞DNA测序而产生。有些是全基因组测序数据,有些只是1%的蛋白质编码基因组测序数据。CGHub还将收录NCI儿童及HIV相关癌症基因组项目的数据,还将接管NIH的国家生物技术信息中心,该中心此前一直在收集癌症测序数据。
CGHub位于圣地亚哥超级计算机中心,它的计算机系统可存储5千万亿字节来自癌症患者的DNA及RNA数据。(TCGA每月可产生10兆兆字节数据并最终产生10000兆兆字节数据。)
TCGA正在为关键的致癌遗传变化编制目录,从而使得研究人员可以用于开发定制的治疗方法。中心数据库将允许研究人员跨越癌症类型进行突变及错连路径进行对比。更重要的是,这种将数据集中到一个地方有利于研究人员进行跨资料库的比较。不过,CGHub将不收录来自其他国际癌症基因组项目的数据。
目前,研究人员还只能进行数据下载。不过由于数据集大小的迅速膨胀,在因特网进行基因组数据传输正变得不切实际。领导这个项目的生物信息学家David Haussler表示,由于NIH正在与Amazon开展1000人基因组计划的数据合作,最终研究人员将可通过云计算在CGHub的服务器上进行远程数据处理。