随着高通量测序技术的飞速发展以及海量组学数据的快速激增,生物信息学成为生命科学领域发展最为迅猛的学科之一。生物信息学(Bioinformatics)集成数学、信息学、统计学和计算机科学等多学科方法揭示海量生物大数据内的规律和奥秘,因此,生物信息学的核心可以说是如何实现跨领域、跨学科的融合并以此解决生物学问题。近几年,生物信息学迅猛发展,研究领域、应用范围更加广阔,但在高速发展中难免会出现一些弊端和瓶颈,结合本人研究方向,个人认为有以下三个问题以供各位专家和同学共同探讨。
第一、生物信息学难于将不同专业领域完美融合于一体。对于单个个体来说,很难达到所有学科的精通。生命(或信息)科学领域的研究工作者在各自领域都是顶级专家,但是在进行生物信息研究工作时仍需要学习信息(或生命)科学领域等专业知识,且短时间内难以掌握。较为理想的模式是建立生物信息学团队,团队中分工明确,各司其职,互相协作。目前,该模式已经成为各大型实验室、高校、研究所和生物科技公司的主流。然而,近些年来随着测序成本的断崖式下降以及测序产出的数据呈现爆炸式增长,生物信息分析的要求越来越高,即使是团队作战也开始暴露出弊端:团队分析日益成熟的标准分析流程与更加精细的个体化需求难以达成一致,同质化日益突出,团队内沟通日趋困难。
第二、自主搭建的生物信息分析平台应运而生,但随着生物大数据时代的到来越来越难以支撑运营。首先,计算存储资源难以跟上数据增长的速度,且数据分析需求动态变化,因此资源难以得到合理的应用;再次,因体制约束、人才短缺和培养费用高昂导致的人才队伍难以建立和维持,最后就是场地建设和维护、硬件设备软件设备的更新换代等导致运维成本大大提升。随着国家对科研的投入加大,越来越来的研究机构有意着手搭建自己的生物信息分析云平台,然而其弊端随着平台运行时间推移逐渐突出。因此,无论是科研机构,还是企业公司,中小型规模的私有云平台面临一个困境,运行则成本负担不起,不运行则资源浪费。
第三、生物信息领域亟需建立统一的标准体系进行质控研发和规范流程。面对同样的一个研发工作,不同的研发团队和个人会使用或开发出不同的代码和规则,这样很难用简单的对错去评估;另外,已经完成的流程代码在如此迅猛的发展大潮下也很难做到及时的更新与评估,相同类型的软件质量参差不齐且分析过程不透明,缺乏质量控制和过程管理。
解决以上三个问题可能的途径之一是搭建一个公共云平台让不同研究方向的专家大展身手,相互支持又相互独立,构建一套完善的研发规则与准则,形成生物信息研发交流生态系统,同时又将分散的资源进行整合并合理分配。然而,搭建这样的公共云平台需要汇集各学科专业的智慧、多年的项目累积和经验总结、庞大的团队支撑以及公开透明的平台组织架构。现今,国内外科研界和企业界已开发的云平台有Galaxy、SevenBridges、百迈客云等。其中,百迈客云算是国内的典型代表,具有可操作化界面、简便易上手、分析流程高度集成化等特点,内嵌的分析流程经历过近万项目的使用验证。在“互联网+”时代,云平台通过网络为用户提供方便、随时可获取的计算资源,用户无需添置、维护昂贵的用于大数据存储与计算的高性能硬件资源,采用虚拟化技术可实现计算资源的快速扩展,用户可以根据自己的存储分析需求,快速调整资源配置,经济灵活。百迈客云依据自己多年的生物信息分析优势,开发出完整高效的云平台系统,及时迅速的版本更新以及敏捷开发Scrum迭代模式大大提高了生物信息开发的效率和规模,为生物信息发展提供了一套行业标准和规范流程。
千里之行,始于足下,紧跟“互联网+”大潮流,我国科研机构和科技企业正在一步一步脚踏实地的创新性的变革着生命科学研究模式,在我国综合国力大幅提升、生命科学领域不断发展的背景下,相信这场变革会在不久的将来发生在中华大地,谱写出中国科技工作者和企业家们在生命科学领域新的篇章。
章张
中国科学院北京基因组研究所“百人计划”研究员,2007年获中国科学院计算技术研究所生物信息学博士学位,之后在美国耶鲁大学、沙特阿卜杜拉国王科技大学继续从事生物信息学方面研究工作,2011年全职回国,2016年担任中国科学院北京基因组研究所生命与健康大数据中心常务副主任,担任中国遗传学会生物大数据专业委员会副主任、基因组学专业委员会委员,是首位入选国际生物审编学会(International Society for Biocuration)执行委员会的中国学者。