得益于高通量测序技术的长足发展,基因组、表观组和转录组等组学数据呈现出了爆炸式的增长,并且这一趋势将随着技术的发展而进一步延续。目前,全世界每年的生物数据产生总量已经高达 EB级。如此海量的数据为我们深入了解生物学过程、疾病机理等多方面提供了前所未有的机遇。
与此同时,生命科学研究领域的数据分析的挑战也日益严峻,多种不同维度数据的整合分析又使得这一挑战的形势更加急迫和严峻。因此,依赖于数学、计算机科学、信息与通信工程学等多方面交叉学科基础知识的生物信息学在大规模数据分析和转化应用中的独特优势日益凸显。
目前,生物信息学已经成为生物学、医学、农学、海洋科学、环境科学等学科发展的重要组成部分;同时,还在蛋白结构预测、精准医学、微生物组学、法医学鉴定、药物设计、计算机硬件集成、动植物功能等研究中发挥其至关重要的作用。
蛋白质作为构成细胞的基本要素,其翻译后修饰 (Post-translational modification, PTM)参与了几乎所有细胞通路和过程,在调控蛋白质构象变化、活性以及功能方面具有重要作用。蛋白质翻译后修饰的鉴定是阐明细胞内分子机理的基础。生物信息学方法可以准确、快速、有效地预测潜在的修饰底物位点,为蛋白质翻译后修饰的研究提供有力的分析技术。刘泽先等总结了中国生物信息学者在翻译后修饰生物信息学领域所取得的研究进展,并与国外同类工作进行了比较,发现优势和不足,同时对未来本领域的研究方向和内容进行了展望,提出新的科学与技术问题,以期推动我国在翻译后修饰生物信息学领域的快速发展 。
遗传性心肌病(Inherited cardiomyopathy, ICM)是一种常见的遗传性心脏疾病,是青少年和年轻运动员猝死的主要原因之一,主要由基因突变所致。这种疾病可累及所有人群,患病率约为 0.9/1000。到目前为止,已经发现约 100 个基因与其治病有关,这些基因相关的变异位点具有不同的致病机制。因为对于遗传性心肌病的分子遗传学特征及其治病机制的深入了解是对该病遗传诊断的关键。
对人类而言,微生物遍布于人体每个角落,不仅与人体共生并且对人体健康产生着重要而深刻的影响。与人类共生的全部微生物的基因组总和称为“元基因组”或“人类第二基因组”。对人体微生物群落及相关元基因组数据研究不仅能为基础医学研究向医学临床应用转化提供新思路和新方法,而且具有广阔的应用前景。新一代测序技术的出现更是弥补了以往人体微生物研究方法的缺陷,为解决许多医学领域的难题提供了全新的切入角度和思维方法。陈嘉焕等综述了元基因组的研究现状,包括元基因组的方法概念和研究进展,并以元基因组在医学研究中的应用为着眼点,总结了元基因组在转化医学方面的研究进展,进一步阐述了元基因组研究在转化医学领域中不可或缺的地位。
随着高通量测序技术的不断发展与完善,对于不同层次和类型的生物组学数据的获取和分析方法也日趋成熟与完善,这些数据挖掘、分析正在改变人类疾病研究及临床治疗的进程。单个组学数据的分析往往只能体现出疾病样本其中一个层面的变化,在筛选疾病靶点方面有很大的局限性。通过对多层次疾病组学数据的综合分析,将有助于人们对疾病形成更加系统全面的认识,为药物研发、临床诊断及个性化治疗提供更多有用的参考信息。谢兵兵等详细介绍了基因组、转录组和表观组等系统组学研究在疾病靶点筛选方面出现的新技术手段和研究进展,并对它们之间的整合分析新策略和优势进行了讨论。
耳聋是一种人类常见、高发的致残性疾病,据2013 年世界卫生组织公布,全球约有 3.6 亿的人口患有不同程度的耳聋,新生儿中大约有 1/1000 患有某种先天性耳聋。耳聋直接影响患者的认知、思维和记忆能力,造成生活质量的下降,给社会及家庭造成重负。群体凝血因子 C 同源物基因(Coagulationfactor C homology, COCH)是人类发现的第一个伴前庭功能障碍的耳聋基因。钱旭丽等利用生物信息学的方法对 COCH 基因编码区致病性非同义单核苷酸多态性(Non-synonymous single nucleotide polymorphisms,nsSNPs) 进行了研究,该研究对 COCH 基因的基因型与表型的相关性研究及遗传性耳聋筛查提供了相应的理论依据。
黑色素瘤是一种起源于黑素细胞、极易发生转移的恶性皮肤肿瘤,其中侵袭性黑色素瘤患者的 5年生存率仅有 15%。由于黑色素瘤发病机理复杂,复发及转移迅速,目前的治疗方法很难取得更好的治疗效果。上皮−间充质细胞转化(Epithelial-mesenchymaltransition, EMT)是胚胎发育过程中正常的生理过程,在肿瘤的发生、发展过程中,EMT 对于细胞粘附能力丧失、肿瘤迁移和侵袭等都会产生影响。王冬等通过整合分析黑色素瘤细胞系转录组和miRNA 组测序数据,筛选得到参与肿瘤 EMT 过程的关键基因和与之负相关的 11 个 miRNA,经实验验证,其中 4 个可以调控肿瘤相关基因。这一研究可望为肿瘤多组学数据整合分析的精准医学研究提供新的思路。
短串联重复序列(Short tandem repeats, STRs)遵循孟德尔遗传并具有高度多态性、检测简便、易于自动化及廉价等特点,已经被广泛用于法医学个体识别及亲权鉴定、遗传连锁图谱的构建以及疾病相关基因的定位等众多领域。阮修艳等首次北京地区汉族人群的13个CODIS(Combined DNA index system)和 26 个非 CODIS 系统 STR 基因座的遗传多态性进行了研究,建立了北京地区汉族人群 39 个 STR 基因座的群体遗传多态性数据库并对其法医学应用价值进行评价,为中国法医 DNA 数据库和群体遗传学数据库提供了关键的基础参照数据。
溶血磷脂酸酰基转移酶(Lysophosphatidic acidacyltransferase, LPAAT)是油脂合成途径中的一个关键酶,能催化溶血磷脂酸转变为磷脂酸。马健江等从雷蒙德氏棉(G. raimondii, D5)和亚洲棉(G. arboreum,A2)的基因组数据中得到 17 个 LPAAT 基因家族成员,并利用生物信息学方法对二倍体棉花LPAAT 基因进行基因结构,染色体分布以及系统进化分析,结果将有助于了解棉属植物 LPAAT 基因家族的功能。
作为生命科学的关键组成,生物信息学已被广泛地应用于基因组学、转录组学和蛋白质组学中。然而,生物信息分析平台的构建对计算平台要求较高,从而极大地限制了生物信息学在水产科学中的应用。方翔等基于“天河二号”超级计算机构建了由基因组与转录组测序数据分析、蛋白质结构预测和分子动力学模拟三个功能模块组成的水产病原生物信息分析平台,此项研究将为其他学科生物信息分析平台的构建提供思路和线索。
梨石细胞是影响梨品质的主要因素之一,其形成发育过程与木质素的合成、运输、沉积有着密切的关系。而 4-香豆酸:辅酶 A 连接酶(4CL)是木质素合成途径的限速酶之一,是苯丙氨酸途径中联系着木质素的前体和其他各个分支反应的关键节点。为了更好的了解砀山酥梨中 4CL 基因的种类和数量,曹运鹏等利用砀山酥梨基因组的氨基酸和 cDNA数据库对 4CL 基因家族进行筛选,分析砀山酥梨基因组中 4CL 基因的种类、进化关系、基因的物理定位、以及基因结构和保守基序。这些研究结果为砀山酥梨 4CL 基因功能的深入分析奠定了基础。
生长素在植物生长发育的许多方面都起着重要作用,生长素响应基因家族能够调节植物体内生长素平衡和生长素信号途径。袁华招等采用生物信息学方法检索获得葡萄(Vitisvinifera L.)基因组数据库中的生长素响应基因,发现葡萄基因组可能含有 25个 AUX_IAA 基因、19 个 ARF 基因、9 个 GH3 基因、42 个 LBD 基因。这些生长素响应基因不均匀分布在葡萄的 19 条染色体上,部分家族基因在染色体上形成基因簇并在葡萄不同时期的果实和叶芽中均有表达,尤其在果实转色期、叶芽萌发或休眠期表达量急剧变化。
未来,生物大数据的研究、多种组学数据的整合分析将会不断挑战传统的科学思维模式,带来新的变革。生物信息学是生物大数据分析成果转化的必由之路,也必将成为应用生物学研究的中流砥柱,发挥其不可替代的优势。
备注:本文作者中国科学院北京生命科学研究院赵方庆教授、中国科学院北京基因组研究所方向东教授以及中国科学院上海生命科学研究院生物信息中心李亦学教授。
本文原发于《遗传》杂志2015年7 月, 37(7)专稿,编辑有所删减。