生物医药大数据时代来临 推动健康医疗信息产业发展

2013-11-25 06:00 · 璇儿

大数据的讨论成为近年来各行业最热的话题之一。生物医学中的大数据,也被提上紧迫位置。随着生物学与医学的发展,海量数据迅速形成。例如DNA测序性能显著提高,成本大幅降低,基于基因组学、后基因组学(功能基因组学)的现代生物医药技术取得了飞速发展,以及大量临床数据的积累,生物医药行业的大数据时代迅速迫进。

文/贺加原 庞 晖 朱大淼 李欣梅 张发宝

2008年9月,Nature出版了一个专刊,讨论大数据存储、管理和分析等问题,昭示着大数据时代的到来。之后麦肯锡公司、Science先后出版大数据报告和专刊。大数据的讨论成为近年来各行业最热的话题之一。生物医学中的大数据,也被提上紧迫位置。2013年Nature再刊文指出生物学需要自己的大数据。随着生物学与医学的发展,海量数据迅速形成。例如DNA测序性能显著提高,成本大幅降低,基于基因组学、后基因组学(功能基因组学)的现代生物医药技术取得了飞速发展,以及大量临床数据的积累,生物医药行业的大数据时代迅速迫进。因此,需要新型的存储、计算和分析技术,应对新形势下的生物医药大数据(BigData)的发展。在上海市科学技术委员会基金支持下,上海北岸信息技术有限公司对该课题进行了研究。


一、生物医药大数据的几个来源

1、基于P4医疗模式下产生的大数据库

P 4医疗是预见性(P r e d i c t i v e)、注重预防(Preventive)、个性化(Personalized)和主动参与(Participatory)的简称,通过收集人群(不仅仅是患者)的健康信息,通过对信息的聚合,计算与跟踪,实现全流程的健康管理,最终实现对疾病的预测、预防、个性化治疗、以及最佳的康复建议。从数据角度看,将人群的健康信息通过网络进行存储、互联和计算,高度依赖数据库技术和超算技术。ISB总裁兼联合创始人Hood博士指出:"P4医疗理念在将科学研究转化为临床效果方面取得了重大突破,有望围绕单独个体创建出由数十亿个数据点组成的虚拟云端,以此作为直接预测健康和疾病的基础。" 这其中的数据不仅仅是医疗领域产生的数据,还包括人群的日常行为(如生活方式,运动方式等)、情绪活动所产生的信息、甚至社会学信息,同时这些信息还具有时间特性,在不同的年龄所产生的信息共同构成信息系统。单个患者的数据就属于海量信息,如果是群体数据,将变得极其庞大。虽然这是一项极具前景的研究方向,却极具难度,Google Health曾试图实现这一蓝图,但最终失败。然而仍然有众多公司在朝这一方向努力。尤其随着最近几年的超级计算机的计算能力飞速发展,以及云存储和移动终端的普及,未来基于人的“人联网”有望实现。

2、转化医学与生物样本库产生的大数据

在最终实现人群的信息网络化中,有大量工作需要进行,尤其是人类的信息化过程。其中转化医学(translational medicine)扮演着重要角色。转化医学本意是在实验室与临床应用之间进行双向转化。但是实验室过程与临床应用存在天然的鸿沟。在传统的模式下,实验室的数据需要经达漫长和复杂的过程,经历临床前和I、II、III期临床研究后,才能应用于临床,而转化医学试图快速跨越这一过程,使实验室成果迅速应用于临床。因此,对实验室数据的可靠性提出巨大的要求。在传统的小数据基础上,大量的实验室数据无法在临床应用进行重复,而大数据模式下,可能解决小数据模式下的偏倚问题。例如,数个基因表达的模式很难预测某个人是否患某种肿瘤,但是将来通过计算,有望找到某种基因表达模式(这一模式可能是数百种,甚至更广泛的基因表达组成的模型),能够更精确预测肿瘤的发生,而且,随着数据库累积,这种预测的效应会越来越精确,临床应用的可靠性随之增加。从目前来看, 各类组学研究以及生物样本库(Biobank)的结果,可能是最易产生转化的两种方式。组学研究方面,包括基因组学(尤其是深度测序的结果),蛋白质组学,代谢组学,表观遗传组等信息库,可能为疾病的机制提供全新的认识。2012年,

Nature发表采用基因组和转录组学方法,通过对2000个基因的分析,对乳腺癌提出新的分子分型的方法,将乳腺癌分为10种亚组,有利于指导乳腺癌的个性化治疗。美国“癌症基因组图谱”项目中的一项调查,根据基因表达谱的特征,将乳腺癌分为四大类,虽然仍然存在争议,但不容否认,根据基因表达谱对肿瘤的分类,已成为新颖的对疾病认识的方法。在老年性痴呆领域,大数据的优势也迅速体现,极大加快了对老年性痴呆的机制的认识。尤其是去年ENCODE计划的实施,更是引导国际上对生物学大数据的呼吁。相信今后众多疾病的研究,均可能从大数据中获取关键信息。样本库和组学产生的海量数据库,以及后续的生物信息学分析中算法产生数据,是未来健康数据库的重要组成部分,为预防以及临床诊疗提供参考价值。

3、药物研发与药物基因组学大数据

传统的药物筛选, 是低通量的。近年来发展起来的化合物数据库,结合计算机辅助药物设计、高通量药物筛选以及高通量药物基因组学数据,目前尚未充分认识与利用。随着“开放创新(oninnovation)”理论提出,药物研发机构未来可能共享药物筛选数据。同时,药物筛选数据与医疗信息数据结合,还会产生新的数据源。2013年5月初,英国首个综合运用大数据技术的医药卫生科研中心在牛津大学成立。该中心主要搜集、存储和分析大量医疗信息,确定新药物的研发方向,从而减少药物开发成本,同时为发现新的治疗手段提供线索。这些方向,都可能是未来的重要大数据源。

二、云计算平台发展与应用

大数据产生之后,计算往往成为瓶颈。面对生物医药大数据时代的挑战,众多生物企业和科研机构面临着强大的存储和分析需求。例如,在深度测序日益普及的同时,基因组学研究中分析处的数据量的迅猛飙升,导致测序数据增长速度超过摩尔定律的计算速度增长,对IT能力提出严重挑战。超级计算机得到迅猛发展,但是超级计算机由于成本高昂,并未在医疗领域广泛普及。近年来兴起的云计算(cloudcomputing)技术,则成为大数据计算的主体,通过云计算技术,能达到和“超级计算机”同样强大效能的网络服务。加上云计算的成本相对低廉,未来有望成为生物医药中大数据的主要解决方案。象google、IBM、微软、戴尔、Cisco等公司都成立了健康云服务中心(Cloud Services for Health)。这些传统IT巨头,包括软件公司(如微软)、硬件公司(IBM,戴尔,华为等)和数据库公司(甲骨文),都将医药行业解决方案列为重要的发展方向之一,以传统的硬件供应商华为为例,专门成立团队打造华为生科云、医疗云平台。这些公司将极大推动医疗健康领域的云计算平台。

三、生物医药大数据与云计算可能发展趋势

“要从海量数据中得出有用结论,专业的数据分析是关键。”牛津大学教授罗里•柯林斯认为,采集到足够信息后,需要由相关领域的专业人士与信息技术专家一起对数据进行有针对性的归纳和分析,医疗大数据需要跨学科、跨领域的合作才能破解大数据的应用难题。通过云技术和大数据的联合,可以使医疗向“智慧医疗”迈进,最终实现“智慧健康”。不过,我国在此领域仍然显得有些落伍,有关大数据的关键技术还有待进一步攻关。方方面面产生的大数据未能得到有效的整合,可能导致我们在下一个十年的大数据竞争中处于被动地位。在生物医药领域,大数据可能会从生物云到医疗云,最终到健康云,最终实现单个个体的信息“云化”,也实现群体的信息互联共享的“云化”,最终可以引发医疗健康行业的变革。但需要医疗界业内人士(如个人,医院,制药公司)、IT界、政府的共同协调努力,才有可能实现这一蓝图。

作者单位:上海北岸信息技术有限公司 上海