13年前,“大数据”尚未被任何字典收录,而今却被公认是全球生命科学研究的核心工具。李亦学告诉记者,科研数据难以共享已成为国内生命科学研究的一大障碍;而在大数据时代,其负面效应还可能被继续放大。
李亦学透露,国内一批院士和重量级专家正在起草一份报告,建议国家借鉴美国、欧洲、日本等的做法,建立国家级生命科学数据库,从而打破共享瓶颈。作为该调研报告的参与人,李亦学表示,在技术上,共享“不存在任何障碍”,国家应尽早落子布局。
一辈子的难题,几个月解决
在生命科学领域引入大数据工具,将给研究带来极大便利。科学家用传统方法可能要花一辈子才能解决的难题,大数据可能只要几个月就能找到答案。
一个典型案例是“腓骨肌萎缩症(CMT)”的研究。这是一种常见的遗传性神经系统疾病,患者最初会感到四肢无力,随后逐步恶化,最终可能终身离不开轮椅。
CMT早就被认为与基因突变有关,但全球科学家寻找致病基因花了20多年,始终不得要领。不过就在两三年前,美国一个小组对一位CMT病人连同他的10多位亲属进行全基因组测序,随后对所获得的数百GB的数据进行了“简单的比对分析”,很快就精确定位了那条致病基因和发生突变的位点。
李亦学表示,能够获得和整合数据,然后再进行快速和精准的分析,已成为生命科学研究的关键。目前,中国已成为世界领先的不断产生生物学与生物医学大数据的国家。然而,中国生命科学的数据共享却与发达国家差距巨大。他判断说,国内课题组之间的数据共享一直是一个“小概率事件”。
李亦学13年前回国,曾经的理想是建立具有国家权威的公益性的生命科学数据中心,推动国内的生命科学研究数据共享。但迄今进展不大,这让他无比遗憾。
只给看论文,无法看数据
美国是生命科学大数据产出和应用的领先者,不仅数据量和分析技术领先,而且在数据共享方面也是如此。
李亦学告诉记者,美国国立生物技术信息中心(NCBI)存储了分子生物学、生物化学、遗传学领域的海量数据,一大批计算机专家和生物学家维护着这个庞大的数据库和自动分析系统。这个平台对支撑起美国在生命科学领域的地位至关重要。NCBI的数据是科学家无偿提供的。根据规定,美国科学家要想拿到政府经费,必须在申请课题时就承诺在课题完成后,将详细的研究数据提供给NCBI;如果违背承诺,这名研究者将被列入黑名单,可能再也无法得到资助。这是NCBI获得大量数据的根本保证。
李亦学说,国内的政府科研项目一直没有强制性的数据公开和共享要求。生命科学的数据零散地掌握在各个科研单位和研究小组内部,对国家的科研投入来说,这是一种巨大的浪费。
据了解,在我国,这样的现象时有发生:国家向某个重大研究课题投入巨资,支持其从基因组层面研究若干重要的遗传疾病。最终,虽然该研究发表了一系列高水平论文,但却从未将详细数据公开。
李亦学认为,这样的研究本可以整体提升中国相关领域学术水平,但“只给看论文、无法看数据”的做法,极大限制了国家级课题的带动效应。
科研数据要当成战略资源
最近,国内一批院士和重量级专家正联名起草一份调研报告,希望能在国内也建立一个类似NCBI的国家级生命科学数据库。这份报告将在今年完成并提交。
最让专家们揪心的,不仅是数据不共享将给国家创新体系带来损失,更在于“如果有一天,NCBI不再与中国科学家共享数据,我们怎么办?”
NCBI向全球免费提供数据。李亦学说,目前,所有的访问量中,来自中国科学家的占了相当大的份额。一旦NCBI向中国关上大门,一些院士的判断是:“中国生命科学研究可能倒退20年。”
在大数据时代,数据就如石油一般,是国家的战略资源。李亦学认为,正因为如此,必须由国家出面,建立科研数据共享的机制和环境。而目前,哪怕政府对所资助的课题提出数据共享的强制性要求,科学家也不知道该去哪儿共享。
在生命科学领域,国际学术界有一个不成文的规定:要想在顶级刊物发表论文,科学家必须共享其实验数据,而且大都必须将数据递交到NCBI的数据库体系。李亦学说,因此,在NCBI的数据库,由中国科学家提供的数据占了不小比例。这种“国内数据、国外整合”的做法不合理,但也表明在国内推动数据共享存在可操作性。
根据调研,在我国建立国家级的公益性生命科学数据平台也许需要数亿元的年度预算,以建立一个海量科学数据存储和计算服务的软硬件架构,以及维持一支高水平的研发和服务团队。但一旦建立起来,这个平台的回报以及潜在的社会经济效益,“无论怎样估计都不会过分”。
上海生物信息技术研究中心主任李亦学简介

李亦学,研究员,博士生导师。1982年2月毕业于新疆大学,获物理学学士学位,1987年10月毕业于新疆大学,获理论物理学硕士学位,1996年10月毕业于德国海德堡大学理论物理研究所,获理论物理博士学位。1996年11月至1997年3月在德国斯图加特大学第三计算机应用研究所从事计算数学博士后研究。1997年4月至2000年6月在欧洲分子生物学实验室(EMBL)从事生物物理博士后研究。2000年7月回国,现任中科院上海生命科学研究院生物信息中心主任,2002年7月任上海生物信息技术研究中心主任,2006年12月任中科院系统生物学重点实验室副主任。
李亦学研究员主要研究方向为生物信息学,2000年回国后,先后主持和承担了国家“九五”863计划生物技术领域《生物信息学数据库开发和建设》重大项目。作为首席科学家主持了中科院《生物信息学重大基础理论与应用》重大研究项目;国家973《重大疾病相关蛋白质组学生物信息学》课题;中科院上海生科院《生物信息技术平台建设》项目,国家中长期科学规划基础科学重大专项蛋白质科学研究《模式生物和细胞等功能系统的系统生物学研究》专项等, 现为国家自然科学基金委员会生命科学部自然科学基金专职评审专家,德国Journal of Integrative Bioinformatics杂志编辑,美国Medical Science Monitor杂志特邀审稿人,英国BMC Bioinformatics杂志特邀审稿人,国内《科学通报》特邀编辑,生物物理和生物化学学报、中国生物工程杂志以及Genomics,Proteomics and Bioinformatics 等杂志编委。回国六年来带共发表80余篇科学论文,包括Science, Nature Genetics, Nature Biotechnology, PNAS, Oncogene, Molecular Systems Biology, Plos Computational Biology, Bioinformatics,BMC Bioinfomatics, BMC Genomics, BBRC, FEBS Letter等,其中第一和通讯作者发表SCI科学论文60多篇。李亦学研究员现任上海生物信息学会理事长,中科院“十一五”信息化专家组专家,上海生物信息技术研究中心主任。曾任国家中长期发展规划第十五专题组副组长,上海市2002年科学预见专家,中国科学院计划局生命科学领域战略发展专家组专家,国家“十五” 863计划生物和农业技术领域生物信息技术主题专家组组长,国家科技部中英E-Science国际合作计划中方协调人。
