SNP(Single Nucleotide Polymorphism)综述

2010-03-15 22:58 · jack

前言 2001年二月,美、英等国宣布完成了人类基因体定序及分析初稿,这项划时代的创举将人类基因体科技带入新的境界,也连带开启了分子生物学、蛋白质体学、药物基因体学等新研究趋向。人类基因译码初稿的完成,象征着人类基因体解读计划的第一阶段已告一段落。但接下来对于基因定序数据的检测与

前言

2001年二月,美、英等国宣布完成了人类基因体定序及分析初稿,这项划时代的创举将人类基因体科技带入新的境界,也连带开启了分子生物学、蛋白质体学、药物基因体学等新研究趋向。人类基因译码初稿的完成,象征着人类基因体解读计划的第一阶段已告一段落。但接下来对于基因定序数据的检测与分析,以及运用这份草图来寻找个体间基因序列差异性的任务,才刚刚开始(1)。

了解个体间基因序列差异性(inpidual sequence variation)的研究,不但对族群遗传学、演化学的研究相当重要,在利用连锁不平衡(Linkage Disequilibrium)进行复杂性遗传疾病(multiple genes diseases)的相关性研究上也扮演重要的角色(2)。

目前许多科学家正致力于人类序列之变异(human sequence variation),其中,又以SNP(single nucleotide polymorphism)最让人感兴趣,这是因为SNP是最常见之人类序列变异,且SNP之侦测已可自动化(利用DNA chip),再加上SNP在人类DNA中之分布极为普遍,故现已被广泛研究。藉由比较各人之间的SNP之差异,我们便可研究药物对不同个体所可能造成的生理生化反应,或者针对单基因遗传性疾病进行全基因体搜寻(whole-genome search),对多基因遗传性疾病进行已知染色体位置之关连研究(association study)以及全基因体搜寻(1,2)。

什么是 “SNP”?

SNP,念法为〔snIp〕,是Single Nucleotide Polymorphism的英文简称,其中文译为“单一核苷酸多型性”,意思是“DNA序列中的单一碱基对(base pair)变异”,也就是DNA序列中A、T、C、G的改变,即基因组的一个特异和定位的位点出现两个或多个的核苷酸可能性(10)。事实上,在目前已知的SNPs中,所占比例最多的、意即最常发生的单一碱基对变异,就是以T(thymin)取代C(cytosine),约占已知总数的三分之二(3)。

在所有可能的DNA序列差异性(sequence differenciation)中,单核苷酸多型性(SNP)是最普遍发生的一种遗传变异(genetic variation)。在人体中,SNP的发生率大约是0.1%,也就是每1,200至1,5000个碱基对中,就可能有一个SNP(10)。目前科学界已发现了约400万个SNPs。平均而言,每1kb长的DNA中,就有一个SNP存在;也就是在每个人的DNA序列中,每隔1kb单位长度、就至少会发生一个“单一碱基对变异”。由于SNP的发生频率非常之高,且每个人的DNA上所发生的SNP皆不同,故SNP常被当作一种基因标记(genetic marker),以用来进行研究。(1,4)SNP标记分布在基因组编码区或非编码区,存在在编码区的SNP约有20万个,称之为cSNP(coding SNP)。(15)

SNP通常为双等位基因(Biallelic),所以SNP的变异不像STR那么大,但是因为SNP分布密集在整个人类基因组中,数目比STR高出数十倍到近百倍,因此被认为是应用前景最好的遗传标记物。(15)

由于SNP的产生可能会造成蛋白质表现的改变,所以SNP也成为影响人类体质的关键,使人可能特别容易或特别不容易患上某些疾病,或使得对于治疗药物的反应性有所差异。举例来说,引发艾滋病的HIV病毒在感染人的免疫淋巴细胞时,需要淋巴细胞表面具有CCR2和CCR5。当HIV病毒阳性的感染者的免疫淋巴细胞携带有一种突变的CCR2(64位的缬氨酸残基突变为异亮氨酸残基)时,此患者的发病会比其他感染者晚2~4年。另外,白种人有一种特定的CCR5缺失变异,其CCR5基因有一段32个核甘酸长度的序列缺失,约占白人的9%。具有此突变CCR5的个体,HIV病毒难以感染。但是这种缺失突变在黑人与黄种人中并不存在。(14)

但必须注意的是,并非所有的SNP都有临床意义。对疾病发生和药物治疗有重大影响的SNP,估计只占数以百万计SNP的很小一部分。即使产生了SNP,也不一定造成蛋白质氨基酸编码改变或基因表达调控改变,或导致蛋白质结构或活性,而造成对于药物的特殊影响。怎样从数百万SNP中,找到确有临床意义的功能性SNP,是药物遗传学和个体化医学所面临的重大挑战。(14)

“SNP” 为何重要?

单核苷酸多型性标记(SNP marker)会出现在蛋白质的编码基因(genetic codes)上,其可改变蛋白质的结构和功能,使个人体质倾向于“易患上某种疾病”或改变个人“对某些药物的反应”。SNP也可能出现在基因的非编码区,操控基因的表达(gene expression)。

从演化的观点来看,单核苷酸多型性(SNP)具有相当程度的稳定性,即使经过代代相传,SNP所引起的改变却不大,因此可用以研究族群演化(3)。

单核苷酸多型性(SNP)决定着群体和个体基因序列的细微差别,科学家将可凭此找到疾病的易感基因,并使个体化医疗成为可能。先前的研究证实,人类的大部分疾病,如三分之二的肿瘤可以被预防;而通过基因易感性分析,我们便能够确认特定疾病的好发性人群,以对该群人进行生活或饮食方式的干预、促进其健康。这些研究将会为全人类的疾病预防产生巨大贡献。此外,通过对药物代谢相关基因的SNP研究,还能够阐明不同患者间药物代谢及药效差别的遗传基础,可根据不同患者的遗传背景,来优化治疗方案(5)。

“SNP” 的应用

1. 寻找致病基因

个体间的基因差异主要在于SNP,遗传疾病中已发现SNP的例子,如镰型血球性贫血、APOE ε4等位基因参与晚期突发老年性痴呆、V因子1691G→A等位基因(FV Leiden)参与深静脉血栓形成、以及细胞色素P450(CYp)基因的几种形态影响药物代谢等,原因都出在SNP(4,10)。但必须注意的是,并非所有的SNP都有临床意义。对疾病发生和药物治疗有重大影响的SNP,估计只占数以百万计SNP的很小一部分(14)。

2. 诊断及预测致病风险:

藉由对致病基因的了解与认识,可进行比对,更正确地诊断与预测潜在的或遗传性疾病(4,11)。

3. 药物基因体学及新药的发现:

临床治疗实践清楚地表明,药物的有效剂量有着极大的个体差异,可以视为一种基因的表型。药物目标的基因变异,会改变药物与目标蛋白间的相互作用;负责运输药物的蛋白其基因变异,会影响药物的吸收、运送和排出;药物代谢酶的基因变异,会改变药物的代谢;DNA修复酶的基因变异,则可改变药物的安全性(14)。利用SNP与现有的基因诊断体系接轨,能加速检验医学从表型诊断转向基因型诊断,并预防药物副作用,提高疗效(11)。此外,对于药物效果也可有进一步的认识,甚至可以预测用药结果,减少药物误用或滥用的情况。(18)

4. 生物芯片快速检测:

目前DNA微数组或基因芯片要进行大量的SNP筛检已可自动化,并可应用于亲子鉴定(17)及最有效、精确的身分识别(ID)(4)。

5. 研究族群演化:

SNP具有相当程度的稳定性,即使经过代代相传,SNP所引起的改变却不大,可用来研究族群演化(3)。

如何检测 “SNP”?

单核苷酸多型性(SNPs)的发现,主要还是要靠生物信息学的方法。目前的数据库里有大量的SNPs,来源不外乎分为三种,其中最多的,约占57%是经由生物信息方法EST(Expressed Sequence Tag,为大量一次解读cDNA序列数据库殖株,所得的cDNA序列信息。)比对而来,另外少量来自基因体的定序计划(只有约1%),剩下的42%是经由实验产生,而后还是需要生物信息方法来进行序列的比对才能得到。(13)

EST序列比对需要藉由各种生物信息软件来进行,例如PolyBayes就是一个好例子,PolyBayes是以人类染色体的基因体序列作为参考序列,再将数据库中所有的EST序列做多序列间的比对,比对后便可知道出哪些EST是同一群,检查出SNPs及不是SNPs而可能是定序上的错误。(13,15)

经由实验的方法要如何找出SNPs呢?首先选定想要分析的特殊基因或是一段序列,设计适当的Primers,再以聚合酶连锁反应(Polymerase Chain Reaction; PCR),增加核酸序列的数量,等数量够大,就可以以计算机及软件进行多序列的比对分析,就能找出可能的SNPs。(13,15)

建立了SNPs的数据库以后,就可以利用其中的资料,和自己的样品加以比对,来确认样品中是否带有这个SNP。这时就需要在样品中作SNP的检测,检测的方法因应需要而发展得十分多样,在各种检测方法竞争日趋激烈之下,该如何选择呢?一个好的检测方法应具有下列几个条件:

1. 准确——新方法必须经的起旧有的「标准」方法加以验证,而且准确率必须 <99%。

2. 可靠——此技术必须不易失败,以免重复进行实验使花费上升,耽误结果,浪费宝贵的样品。

3. 简便——步骤简单,操作时间短。这样可以降低时间及金钱上的花费,并减低出错的可能。

4. 经济——时间及金钱上的花费要少越好,例如试剂费,设备需求,使用费等,花费过高就无法测试大量的样品。

以下介绍的READIT™ SNP基因多型性系统即为一种基因多型性和SNP检测的新技术,制造公司为Promega。

READIT™ 测试可检测PCR样品的特异序列,确定特异序列存在时便产生信号。具有特定序列的片段,经由特异性杂交及两个热稳定酶的作用(READase™ 聚合酶和READase™ 激酶),产生扩增作用并产生ATP。再加入荧光素酶/荧光素试剂,即可产生仪器能检测的荧光,再经由配备的READIT™ 计算软件,可将荧光加以分析,并确认每个样品的基因型,因此便可简单地找出SNP基因多型性的存在。这个系统还可以对扩增的样品作插入、缺失、移位及进行病原菌的检测。(10)

“SNP” 的进展

由于单核苷酸多型性在医药上的重要性,美国国家卫生研究院(National Institute of Health; NIH)提供约三千万美元的经费给序列定序中心,进行搜寻并定位人类的单核苷酸多型性(SNPs)的计划,定位一百万个人类的SNPs。由各大药厂等组成的单核苷酸多型性协会(The SNP Consortium; TSC)也出资寻找定位出约三十万个人类的SNPs。私人公司如CeleraGenomics及InCyte Pharmaceutical也决定分别投入资金,目前至少已有3,895,421个人类SNPs被定位,定位的资料收录于美国国家生物技术信息中心(National Center for Biotechnology Information; NCBI)(16)的单核苷酸多型性数据库(dbSNP),减去重复登录的数据不算,现有的人类SNPs总数约为2,421,261个,这数字还会继续增加。(11,13)

至于其他物种的SNPs就不是那么热门,目前还不超过700笔。这是因为其他物种的基因体相关定序计划(如基因体解序、EST解序、SNP寻找及定位),本来就比人类基因体相关的定序计划少和慢,毕竟人类基因体相关的定序计划对我们来说才是最重要最有用的。(12,13)

在台湾,以基因体研发为主轴的赛亚基因科技公司,已于2002年7月完成亚洲人种的单一核苷酸多型性(Single Nucleotide Polymorphism,SNP)数据库初稿,接下来的目标将针对肝炎、气喘、乳癌、二型糖尿病等亚洲地区的多发性疾病,积极进行相关基因体研究,包括临床基因体学、微卫星基因定型分析、SNP定型分析、高效能定序、基因微数组及生物信息多项中心等。

“SNP” 的展望

SNP虽然列于基因体学的范畴内,但若能结合多重学科,将可发展个体化医学,也就是针对个人基因特质的医药方式。除了人类基因组的DNA序列数据以外,尚需药物遗传学、临床药理学、毒理学、生物信息学、蛋白质体学、生物信息学等的参与。蛋白质体学的研究目标,是确定所有的机体内蛋白质及蛋白质间的相互关系,可望对个体化医学的发展作出重大贡献;而决定个体间蛋白差异的基因就在于SNP。

简单的说,个体化医学的理想是:病人就医时随身带着一张智能卡,上面除了姓名、性别、年龄、生活史等常规数据外,还有与药物代谢以及与疗效有关的各种基因型数据。据此,医生可以预测各种药物的效应,充分运用适当的药物,达到更高的疗效,并减少医疗资源浪费。(14)

但个体化医学还有很长的路要走,除了SNP的研究外,必须配合上述多种学科的进展,相辅相成,以求早日达到个体化医学的远大目标。

SNP信息相关网站

à以下介绍几个重要的SNP信息网站:

1.TSC website https://snp.cshl.org/

TSC(The SNP Consortium Ltd.)是一个非营利性基金会,其组成目的是“发展在人类基因体中超过300万个以上的SNPs的数据、将数据收集成数据库,并且不以知识产权法律为限制(without intellectual property restrictions)、公开地向大众提供信息”。网站的主要功能如下:

(1) Allele Frequency/Genotype Project:提供三个世界主要人类族群的6万个SNPs frequency。

(2) The SNP Consortium Linkage Map Project:提供human chromosome的TSC-linkage map查询服务。

(3) All TSC protocols:提供所有SNP实验的相关protocols。

(4) Search the TSC database:提供由internal TSC IDs来搜寻SNPs的服务。

(5) News related to The SNP Consortium:持续提供SNP的相关研究讯息。

其网站内亦提供Glossary,以及其他数据查询,是个很丰富的网站。重点是,其一切信息都是免费的。

2.dbSNP Home Page https://www.ncbi.nlm.nih.gov/SNP/index.html

此网站是由NIH之下的NCBI所架设。在网站具有非常庞大的数据库,提供许多不同项目的搜寻服务,且不局限于人类SNP信息,也提供其他生物的SNP信息。值得一提的是,NCBI在网站中对SNP有简单的介绍,可帮助了解SNP的意义及在各种生物方面的应用。是非常有用的数据库网站。

其他的SNP信息网站:

1.HGBASE-Human Genic Bi Allelic Sequences https://hgbase.interactiva.de/

HGBASE (human genic bi-allelic sequences) is a database of intra-genic (promoter to end of transcription) sequence polymorphism. Its primary purpose is to facilitate genotype-phenotype association studies based upon the rapidly growing number of known, gene related, single nucleotide polymorphisms (SNPs).

2.UDB, The Unified Database https://genecards.weizmann.ac.il/udb/

The Unified Database (UDB) presents an integrated map for each human chromosome, based on data integrated by the GeneLoc algorithm.

3.SVD - Sequence Variation Database project https://www2.ebi.ac.uk/mutations/

4.Human SNP Database https://www-genome.wi.mit.edu/snp/human/

可由SNP名称或序列免费查询相关数据,并附有人类23条染色体的chromosome marker map(但没有Y染色体的)

5.JSPN Database https://snp.ims.u-tokyo.ac.jp/

日本人的SNP数据库,有SNP的chromosome map(22+X、Y),并可利用BLAST作序列比对。

怎么找SNP信息网站:

进入Google搜寻网,键入SNP database后按搜寻即可。

参考数据

1)https://genome.ym.edu.tw/chinese/l1/1.htm

2)https://www.binfo.ncku.edu.tw/89-sz-tsai.html

3)https://www.duerinck.com/snp.html

4)陈奕雄博士,「蛋白结构与生物信息」跨领域研究及教学研讨会之会议资料(后基因体时代的生技产业趋势:个体化医疗), 2003年4月, p.81~84, 辅仁大学生物技术研发中心编印.

5)https://202.130.245.40/chinese/TEC-c/134069.htm

6)https://snp.cshl.org/

7)https://www.ncbi.nlm.nih.gov/SNP/index.html

8)https://hgbase.interactiva.de/

9)https://www.appliedbiosystems.com.tw/product/product_3-3-1.htm

10) https:// www.promega.com.cn

11) https://www.clinet.com.cn/

12) https://www.vitagenomics.com/

13) https://www.biotec.mcu.edu.tw/d22_1.doc

14) https://www.kexuemag.com/artdetail.asp?name=365

15) https://www.clinet.com.cn/edu/resource/article/2001121108j.htm

16) https://www.ncbi.nlm.nih.gov/

17) https://www.cgmh.org.tw/intr/intr2/c3920/bb/亲子鉴定.htm

18) https://binfo.ym.edu.tw/industry/talks/mol_med/ppframe.htm

关键词: