基于直向同源序列的比较基因组学研究

2010-03-07 10:46 · Ernest

潘增祥1, 许丹2, 张金璧1, 林飞1, 吴宝江1, 刘红林1 1. 南京农业大学动物科技学院, 南京210095; 2. Division of Laboratory Medicine, Nevada Cancer Institute, 10441 West Twain

潘增祥1, 许丹2, 张金璧1, 林飞1, 吴宝江1, 刘红林1

1. 南京农业大学动物科技学院, 南京210095;

2. Division of Laboratory Medicine, Nevada Cancer Institute, 10441 West Twain Avenue, Las Vegas, NV 89135

摘要: 直向同源序列在不同的物种中具有相近甚至相同的功能、相似的调控途径, 扮演相似甚至相同的角色, 而且, 绝大多数核心生物功能就是由相当数量的直向同源基因所承担, 它是基因组序列的功能注释与分析中最可靠的选择, 其特殊的生物学特性决定: 利用直向同源序列开展比较基因组学研究, 必将为探测不同生物在进化过程中重要功能基因的出现、表达和丢失提供线索。文章从直向同源基因的基本特性、直向同源序列与比较基因组学的关系、应用直向同源序列开展比较基因组学相关研究方法、现状等展开综述。

关键词: 直向同源; 比较基因组学; 生物学特性; 数据库

Reviews in comparative genomic research based on orthologs

PAN Zeng-Xiang1, XU Dan2, ZHANG Jin-Bi1, LIN Fei1, WU Bao-Jiang1, LIU Hong-Lin1

1. College of Animal Science and Technology, Nanjing Agricultural University, Nanjing 210095, China;

2. Division of Laboratory Medicine, Nevada Cancer Institute, 10441 West Twain Avenue, Las Vegas, NV 89135

Abstract: The orthologs have similar or even identical functions in different species, share the anological regulatory pathways, and play the close or even same role among species. Furthermore, the vast majority of the biological core func-tions were assumed to a considerable number of orthologous genes in organisms. Orthologs was the most reliable choices for functional annotation and analysis of genomic sequences, whose unique biological characteristics demonstrated that comparative genomics research based on orthologs will certainly provide clues for detecting the origin, expression, and loss of important functional genes during the biological evolution in different organisms. In this review, the fundamental charac-teristics of orthologous genes and the relationship between the orthologs and comparison genomics were recounted. The corresponding approaches and the current status in comparative genomic research based on the orthologs were summarized.

Keywords: orthologs; comparative genomics; biological characteristics; database

世界范围内的多物种基因组计划和各类测序工作已经形成了海量的序列数据资源, 它们正在使基因组研究发生革命性变化, 信息和新技术的迅速发展也表明: 分子遗传革新将是今后几十年的发展方向。尤其是从整体上而不是仅从某个或少数几个基因入手来研究生物体基因组的机能, 已经在短短几年迅速发展壮大起来, 比较基因组学也就成了各种生物学发现的强有力工具[1~3]。随着各种序列数据的积累和研究的深入, 人们的注意力逐渐转向各类序列的功能上来, 而多数物种功能基因组研究却相对滞后。所以, 选择用模式生物来进行比较基因组分析而实现功能基因信息的转移将是最有效的途径。直向同源序列(Orthologs)被认为在不同的物种中具有相近甚至相同的功能、相似的调控途径, 扮演相似甚至相同的角色, 而且, 绝大多数核心生物功能就是由相当数量的直向同源基因所承担 [4, 5]。因此, 它们是基因组序列的功能注释与分析中最可靠的 选择。

1 直向同源基因的基本特性

直向同源基因又称“垂直同源基因”、“直系同源基因”或“定向进化同源基因”, 是指在物种形成时从同一祖先垂直进化而来的基因, 或者说, 一个祖先物种分化产生两种新物种, 那么这两种新物种共同具有的由这个祖先物种继承下来的基因就是直向同源基因[6]。直向同源基因通常是编码生命必需的酶、辅酶或关键性调控蛋白的基因, 具有功能保守、进化缓慢、变化速度可覆盖整个进化历史、序列变化速度与进化距离相当等特征。它代表了进化上分离的物种间保守的单拷贝基因, 通常在物种进化过程中保持一种相当或是相似的功能[7, 8], 因此, 比较基因组学、系统生物学、进化生物学等多方面都依赖于直向同源基因集的鉴别, 包括比较基因组定位、系统发生研究、编码区自然选择模式解析、物种间共有基因的功能预测等[9]。

可见, 直向同源是指物种进化上的一种关系, 由于过去的进化历史是无法重演的, 因此, 从绝对意义上说, 直向同源基因是无法用实验鉴别的。于是, 我们只能研究出新的方法推测序列在不同物种进化上的联系。然而, 不管何种方法, 都是基于一个理念: 进化上越接近的序列, 其相似性(包括序列、结构、功能等)也较大。所以, 我们只能通过相似性来推测直向同源关系, 尤其是在当前绝大多数数据都是序列数据的条件下。

2 直向同源序列与比较基因组学

多种序列的出现, 尤其是全基因组序列, 为我们提供了宝贵的“财富”。对这些序列进行比较基因组学分析是克隆基因、揭示基因功能和疾病分子机制、阐明物种进化关系及基因组内在结构的基础, 而基因间的直向同源关系, 似乎是比较基因组学的一个自然框架, 将为基因组功能注释和大规模的进化研究提供方便[10, 11]。直向同源基因的特殊生物学特性决定: 利用直向同源序列开展比较基因组学研究, 必将为探测不同生物在进化过程中重要功能基因的出现、表达和丢失提供线索。具体地讲, 包括如下3个方面内容。

潘增祥1, 许丹2, 张金璧1, 林飞1, 吴宝江1, 刘红林1

1. 南京农业大学动物科技学院, 南京210095;

2. Division of Laboratory Medicine, Nevada Cancer Institute, 10441 West Twain Avenue, Las Vegas, NV 89135

摘要: 直向同源序列在不同的物种中具有相近甚至相同的功能、相似的调控途径, 扮演相似甚至相同的角色, 而且, 绝大多数核心生物功能就是由相当数量的直向同源基因所承担, 它是基因组序列的功能注释与分析中最可靠的选择, 其特殊的生物学特性决定: 利用直向同源序列开展比较基因组学研究, 必将为探测不同生物在进化过程中重要功能基因的出现、表达和丢失提供线索。文章从直向同源基因的基本特性、直向同源序列与比较基因组学的关系、应用直向同源序列开展比较基因组学相关研究方法、现状等展开综述。

关键词: 直向同源; 比较基因组学; 生物学特性; 数据库

Reviews in comparative genomic research based on orthologs

PAN Zeng-Xiang1, XU Dan2, ZHANG Jin-Bi1, LIN Fei1, WU Bao-Jiang1, LIU Hong-Lin1

1. College of Animal Science and Technology, Nanjing Agricultural University, Nanjing 210095, China;

2. Division of Laboratory Medicine, Nevada Cancer Institute, 10441 West Twain Avenue, Las Vegas, NV 89135

Abstract: The orthologs have similar or even identical functions in different species, share the anological regulatory pathways, and play the close or even same role among species. Furthermore, the vast majority of the biological core func-tions were assumed to a considerable number of orthologous genes in organisms. Orthologs was the most reliable choices for functional annotation and analysis of genomic sequences, whose unique biological characteristics demonstrated that comparative genomics research based on orthologs will certainly provide clues for detecting the origin, expression, and loss of important functional genes during the biological evolution in different organisms. In this review, the fundamental charac-teristics of orthologous genes and the relationship between the orthologs and comparison genomics were recounted. The corresponding approaches and the current status in comparative genomic research based on the orthologs were summarized.

Keywords: orthologs; comparative genomics; biological characteristics; database

世界范围内的多物种基因组计划和各类测序工作已经形成了海量的序列数据资源, 它们正在使基因组研究发生革命性变化, 信息和新技术的迅速发展也表明: 分子遗传革新将是今后几十年的发展方向。尤其是从整体上而不是仅从某个或少数几个基因入手来研究生物体基因组的机能, 已经在短短几年迅速发展壮大起来, 比较基因组学也就成了各种生物学发现的强有力工具[1~3]。随着各种序列数据的积累和研究的深入, 人们的注意力逐渐转向各类序列的功能上来, 而多数物种功能基因组研究却相对滞后。所以, 选择用模式生物来进行比较基因组分析而实现功能基因信息的转移将是最有效的途径。直向同源序列(Orthologs)被认为在不同的物种中具有相近甚至相同的功能、相似的调控途径, 扮演相似甚至相同的角色, 而且, 绝大多数核心生物功能就是由相当数量的直向同源基因所承担 [4, 5]。因此, 它们是基因组序列的功能注释与分析中最可靠的 选择。

1 直向同源基因的基本特性

直向同源基因又称“垂直同源基因”、“直系同源基因”或“定向进化同源基因”, 是指在物种形成时从同一祖先垂直进化而来的基因, 或者说, 一个祖先物种分化产生两种新物种, 那么这两种新物种共同具有的由这个祖先物种继承下来的基因就是直向同源基因[6]。直向同源基因通常是编码生命必需的酶、辅酶或关键性调控蛋白的基因, 具有功能保守、进化缓慢、变化速度可覆盖整个进化历史、序列变化速度与进化距离相当等特征。它代表了进化上分离的物种间保守的单拷贝基因, 通常在物种进化过程中保持一种相当或是相似的功能[7, 8], 因此, 比较基因组学、系统生物学、进化生物学等多方面都依赖于直向同源基因集的鉴别, 包括比较基因组定位、系统发生研究、编码区自然选择模式解析、物种间共有基因的功能预测等[9]。

可见, 直向同源是指物种进化上的一种关系, 由于过去的进化历史是无法重演的, 因此, 从绝对意义上说, 直向同源基因是无法用实验鉴别的。于是, 我们只能研究出新的方法推测序列在不同物种进化上的联系。然而, 不管何种方法, 都是基于一个理念: 进化上越接近的序列, 其相似性(包括序列、结构、功能等)也较大。所以, 我们只能通过相似性来推测直向同源关系, 尤其是在当前绝大多数数据都是序列数据的条件下。

2 直向同源序列与比较基因组学

多种序列的出现, 尤其是全基因组序列, 为我们提供了宝贵的“财富”。对这些序列进行比较基因组学分析是克隆基因、揭示基因功能和疾病分子机制、阐明物种进化关系及基因组内在结构的基础, 而基因间的直向同源关系, 似乎是比较基因组学的一个自然框架, 将为基因组功能注释和大规模的进化研究提供方便[10, 11]。直向同源基因的特殊生物学特性决定: 利用直向同源序列开展比较基因组学研究, 必将为探测不同生物在进化过程中重要功能基因的出现、表达和丢失提供线索。具体地讲, 包括如下3个方面内容。

2.1 直向同源基因实现比较信息的转移

比较基因组分析的实质就是从一种生物向另一种生物的基因组信息推断, 比较序列分析允许我们从已经得到较全面研究和注释的序列向未知的序列转移信息。模式生物基因组序列的完成和其他物种中大量表达序列的积累, 为比较基因组分析提供了丰富的、宝贵的资源[2]。在多个物种间检验直向同源座位等位基因多样性模式, 能够快捷地将特定物种的信息向其他物种转移, 提供具有广泛适应性和多态性的信息, 并有助于通过统计相关分子与表型性状变异解决重要的功能变异。对具有不同地理起源和育种历史的动物进行比较, 也可能为进化过程中基因在各物种中的演变研究提供信息和基础[12, 13]。

人类和小鼠基因组测序的完成, 已经为其他哺乳动物基因组学研究提供广泛的参考和强大的支撑, 人类和小鼠中丰富的基因信息能通过比较转移到其他物种基因组中去, 比如各种家畜禽, 而这种比较基因组信息能为理解物种间基因组进化速率和模式提供基础[14]。直向同源基因是物种进化上保守的位点, 以这些保守位点作为出发点, 能使基因信息从人、鼠等物种扩展到其他物种, 从而促进比较定位信息的转移。通过利用这些保守序列, 特别是编码区序列, 设计“直向同源序列通用引物”, 从而在不同动物内扩增直向同源基因片段, 实现直向同源基因序列信息从基因组注释信息丰富的物种向相对匮乏的物种转移[5]。

2.2 直向同源基因作为Ⅰ型标记进行基因比较定位与功能基因发掘

基于编码基因的标记, 也称为功能标记或Ⅰ型标记, 是第三代分子标记, 在标记辅助选择和等位基因发现中, 它比RFLP标记(第一代)和其他PCR类型的标记(第二代)具有更大的潜力。然而, 功能标记的缺乏已成为无数以标记为基础的遗传和育种应用中的一个瓶颈。直向同源序列是功能标记中非常重要的一员, 尤其是在比较基因组学的应用中, 这类标记具有独特优势[15]。

直向同源基因标记在物种间呈现高度保守的现象, 比较这些标记在不同物种基因组中的分布, 揭示染色体的共线性, 能对不同物种的基因组结构及基因组演化历程进行分析。有证据表明: 大多数直向同源基因仍然保留在每一个基因组中[16]。因为这些直向同源基因存在序列相似性, 而且数量庞大, 在基因组范围内广泛分布并能精确定位, 已经成为一种链接对应染色体片段的通用、独特的标记, 从而在不同物种间揭示染色体进化重组事件, 并用作不同物种基因组间比较定位的标记。比较基因定位的目的之一就是从不同的物种整合信息, 直向同源基因信息在物种间高度保守, 这种保守性不仅仅体现在基因定位, 还包括基因功能、表达模式等[17]。

用检索序列比对搜索目标数据库而探测统计上显著相似的关系, 是到目前为止序列比较分析中使用最广泛的方法。研究表明, 功能序列的进化通常受到选择作用的限制, 而非功能序列则不然, 因此, 物种间比较表现保守的序列更加可能具有生物学意义[18, 19]。基于直向同源关系的功能基因发现的潜力已经由近来的一些研究工作所证实, Kellis及其同 事[20]在酿酒酵母中成功地应用直向同源性进行基因组注释的改进和基因的发现, 利用酿酒酵母基因组和其他3个酵母菌属, 鉴别出了大量直向同源序列的开放阅读框(ORFs); Dewey等[21]应用小鼠、大鼠和人的基因组序列, 发现了将近3 700个近乎完美的直向同源序列, 而其中924个代表了新的功能基因。

2.3 直向同源基因进行系统发生分析与表达模式的比较鉴别

生物学中的经典任务之一就是用同源性特征来比较生物体由于物种形成而从某个共同的祖先结构分离而来的特征, 当比对超过两个序列时, 通过系统发生树通常可以估计其中蕴涵的进化历史, 从而进行系统发生分析。较长一段时间以来, 大家已经知道, 直向同源序列是相关物种基因组进化的一种极好的指示器[22]。但一直以来, 系统发生分析主要是基于一小部分特征序列或基因来构建进化树, 其局限性是单个基因位点不能精确地反映整体上物种间的关系, 而借助多个直向同源序列标记自身或标记的侧翼序列的比较则可对相关物种进行较为准确的分类[23, 24]。

另外, 以模式生物基因组为参照, 以比较基因组学的方式探测直向同源基因也能反映相关序列的表达模式。一旦直向同源基因得以鉴别, 就能够通过对应EST(Expressed sequence tags)序列信息到其他目标基因组中, 探测其在各种组织类型以及不同的发育阶段的表达概况, 分析目标基因组与模式生物基因组基因表达相似性, 并识别优先表达于目标基因组不同组织器官的基因。我们在对猪表达序列注释的初步研究中也明显地体现了这一点, 利用人类33 308个基因, 以基因导向的方式探测了猪肝脏、肾脏、脾脏、小肠, 以及脂肪、肌肉组织的基因表达概况[25, 26]。

3 应用直向同源序列开展比较基因组学相关研究方法与现状

公共数据库各物种大量序列信息的迅速累积, 物种间某些序列的高度保守性, 允许我们利用同源性搜索的方法在不同物种间探测直向同源关系。在微生物、植物及高等动物中一些针对直向同源基因序列资源的开发研究也逐渐发展起来。

3.1 直向同源序列鉴别方法

直向同源序列鉴别通常需要利用基因组信息比较完全的模式生物基因组作为参照, 比如人类和小鼠就是理想的选择, 然后通过程序的开发或生物信息规模化处理途径进行物种间全面的序列资源收集和比较分析, 鉴别存在于模式生物与目标基因组间的直向同源关系。就研究方法而言, 目前主要包括以下两种:

3.1.1 基于模式生物基因导向的EST功能注释法

通过程序的开发从公共数据库如NCBI收集模式动物编码基因的cDNA序列, 用这些cDNA序列作为检索序列来搜索目标基因组中的直向同源EST序列, 其主要过程包括: (1)模式动物cDNA序列的本地Blast比对建立直向同源参照集, 包括自身比对筛选单拷贝序列; (2)参照集序列作为查询序列, 对含目标物种EST信息的公共数据库, 如GenBank的est-others数据库进行Blast搜索; (3)筛选识别参照集与目标基因组之间最佳匹配的EST记录, 并达到一定同源性标准; (4)选择参照集与目标基因组两两最佳匹配EST作为候选Orthologs标记, 然后通过候选Orthologs标记本地比对各物种内Unigene信息探测单拷贝序列作为直向同源序列; (5)统计分析与结果处理。具体如图1。

 

 

潘增

图1 基于模式生物基因导向的EST功能注释法

3.1.2 基于模式生物基因和目标物种Unigene/TCs (Tentative Consensus sequences)的三角比对

主要过程包括收集两个模式动物编码基因的cDNA序列(Ⅰ、)Ⅱ作为参照, 如人类和小鼠, 用这些cDNA序列与从公共数据库如NCBI、TIGR等获取的目标基因组Unigene/TCs信息进行本地两两BLAST, 通过最佳匹配三角鉴别直向同源关系, 同时进行物种内序列集比对鉴别单拷贝基因, 最后通过综合对比形成直向同源序列集, 其主要过程如 图2。

 

 

 

图2 基于模式生物和目标物种的三角比对

3.2 基于直向同源序列的比较基因组学相关研究现状

微生物方面, Tatusov等[4]以蛋白序列为基础在细菌、古生菌和酵母全基因组之间进行了直向同源序列的分析, 建立了COG(Clusters of orthologous groups of proteins)数据库, 而在更新的数据库里, 他们增加了高等真核生物: 线虫、果蝇、拟南芥和人类, 并与酿酒酵母、裂殖酵母和一种胞内寄生虫形成了新的多细胞真核生物KOGs(Eukaryotic orthologous groups)数据库[10]。植物方面, Fulton等[27]首先在番茄与拟南芥两个物种基因组间尝试进行直向同源序列的鉴别, 开发了第一代保守的直向同源序列标记集COS(Conserved ortholog set)。最近, 他们又利用拟南芥为模式生物, 在番茄、马铃薯、胡椒、咖啡、向日葵、莴苣等6 种重要农作物间进行直向同源标记的探测, 得到了大量有价值的信息, 并丰富了COS[9]。Balaji等[7]最近也等报道了16个重要经济农作物品种间的直向同源关系, 主要从农作物抗应激方面提供功能分类的注释序列, 以及直向同源标记列表; Krutovsky等[8]近来利用比较序列分析来鉴别3种被子植物和4种松柏类植物中的假定性保守直向同源序列集。高等动物方面, Makaowski和Boguski[28]最先分析了人类-啮齿动物(小鼠和大鼠)间直向同源序列信息, 研究结果表明: 这些序列在氨基酸水平和其对应的DNA编码序列水平都呈现出高度的保守性, 而更加令人惊奇的是, 编码序列两侧的非翻译区也呈现高度的保守性。事实上, 这更证实了直向同源基因能通过基于DNA的序列比较而进行鉴别。Lee等[12]利用TIGR数据库序列资源, 创建了TOGA(TIGR orthologous gene alignments), 作为一种探测基因及其在各物种间关系的工具, TOGA包括了5种动物, 同时还有10种植物以及其他13种包括寄生虫在内的生物。另外, Venter等[29]也进行了人类、果蝇和线虫三物种间直向同源序列的探测; Berglund等[30]更新的In Paranoid 6真核生物直向同源序列数据库包含了线虫、小鼠及人类等35个物种的信息, 但缺乏重要农业经济动物相关信息; Heger等[13]最近研究的直向和旁向同源转录数据库OPTIC包括了羊膜动物、果蝇及线虫3个进化枝, 其中羊膜动物仅包括了人类、小鼠、狗、负鼠、鸭嘴兽

及鸡; Ranwez等[24]利用人类、小鼠、狗、黑猩猩、猕猴、黄胸鼠、家兔、牛、九绊犰狳、非洲象、无尾猬、短尾负鼠等12个具有全基因组序列的物种开发了直向同源标记数据库OrthoMaM。在专门性单一直向同源数据库方面, Brettin等[31]利用5种进化关系较近的链球菌种开发了链球菌直向同源基因数据库Toto; Matsuya等[32]利用黑猩猩、小鼠、狗、鸡及斑马鱼等11个物种序列数据信息开发了人类直向同源序列信息数据库Evola, 其包含了较为完全的人类基因的进化特征信息。

以上分析中, 使用的对象多是蛋白质组, 但是由于真核生物的基因组特别庞大, 得到测序的真核生物基因组并不多, 如果仅从己知的蛋白序列和基因组中预测的蛋白序列进行分析, 其物种数并不多。另外, 当前所谓全基因组蛋白序列大部分是从基因组中推测而来的, 而现有的基因预测程序又有明显的缺陷, 所以, 值得探索其他途径。正是由于以上不足, 人们考虑使用EST和mRNA序列。一是因为这些序列是直接测序得到的, 相对比较可靠; 二是这类序列非常多。然而, EST也有其自身的缺点, 比如EST往往带有3′或5′端的非翻译区(UTR), 可能会对直向同源基因的鉴别有所影响, 所以, 研究者考虑在利用EST的基础上结合Unigene/TCs信息进行对照。

4 结 语

人类基因组计划代表了世界范围内几百个实验室协作的一种巨大财政、经验和技术的投入, 经过14年的努力, 于2001年得到了覆盖人类基因组约94%的草图序列, 它被看作是现代生物学中的水门事件[28]。这些草图数据给遗传学家们留下了一笔巨大财富[17]。小鼠基因组草图序列的发布[33], 也是我们宝贵的资源, 一些科学家也把破译小鼠基因组作为一个里程碑事件, 其兴奋程度不亚于人类基因组草图的完成。由于经费和其他社会原因所致, 在多数物种中的相关研究通常要落后于人、小鼠或是其它某些模式生物, 尤其是功能基因研究领域。所以, 通过模式生物基因组为参照, 在具有重要价值的其他物种基因组中开发直向同源序列标记将是一条捷径。比如, 我们可以利用人类和小鼠等模式动物基因组为参照, 在其他重要经济动物中开展比较基因组学研究, 从而结合计算机的强大信息处理能力鉴别存在于各物种的直向同源标记, 并选择具有重要生物学功能或价值的候选标记开展实验研究, 将迅速实现动物基因组比较信息的物种间转移, 发掘新的功能基因和定位信息, 以及评价物种间基因表达模式差异等, 从而加快其他物种基因组学研究, 促进在高通量比较基因组学研究之间建立协作关系, 也能与基因家系、代谢途径等相关研究联系起来。

关键词: