对于神经科学中分子生物学部分,特别是相关疾病方面的研究手段并不是很多。特别是对于多个因素的作用,现在的研究手段还比较稚嫩,对于DNA的初步大规模分型无疑是一种好的方法。AFFY用基因芯片来检测SNP达到了高通量的目的,非常适合于第一步的筛查。
复杂DNA的大规模基因分型
Nature Biotechnology, Volume 21, Number 10, October, 2003
以复杂的人类表型的分子基础为研究目的遗传研究要求对大量个体中成千上万的单核苷酸多态性(SNP)进行基因分型。目前已公布了超过了2百万的人类SNP位点; 然而, 测定这些SNP位点的方式是劳动力密集型,要求大量的自动操作参与。这儿, 我们描述了简单而有效的方法,定义为全基因组样品分析(WGSA),即对一个复杂DNA 样本无需位点特异性的引物或者自动化操作而可以同时进行成千上万的基因型的分析。我们的方法是对多种DNA样本中有高度重复性的片段进行扩增,检出的基因型准确性超过99%。我们也对来自于3种不同人种的14,538个SNP位点快速确定了基因型,并确定了在这些种群中有显著的等位基因差异。我们通过对黑猩猩和大猩猩进行基因分型确定了8386 个SNP位点为祖先型等位基因(ancestral allele)。总之,WGSA是高度定量的并可进行高密度的SNP图谱的遗传学研究。
我们克服了当前的基因型技术中的2个重要瓶颈:位点特异性SNP 的扩增和位点特异性等位基因区别的要求 。我们设计了基因样本的准备方法,通过单核苷酸引物进行扩增,用DNA 芯片检测等位基因。基因芯片通过样品中的核酸分子同芯片上的互补性顺序进行的特异性杂交来确定大量的基因信息。 尽管目前可以在芯片上合成大于500,000探针序列,但是主要的挑战是如何将基因组DNA放在芯片上的同时得到有关样本的准确的等位基因信息。许多靶基因的特殊基因碱基对(复杂性)增加了交叉杂交以及非特异性信号的机率。因此,优先选择基因组的一部分(或者片段),在芯片上才可以得到有意义和特异性的信号。
进行基因组的筛选目前有几个已知的方法。共同的策略是使用限制性酶消化,随后进行接头连接,并用一个引物进行扩增。所采用的方法的不同在于降低复杂度的步骤。举个例子来说,代表差异性分析利用PCR选择性扩增长度至1kb的片段。这种扩增的片段长度多态性(AFLP)的方法是利用特异性引物去扩增基因。基因片段也可以通过凝胶选择片段大小来制备。TSC (The SNP Consortum) 利用这种方法确认了超过一百万SNPs。所有这些方法在制备片段化的基因方面都取得了进步,但是它们在区别等位基因方面仍有局限性,即在大规模的基因型确认方面仍有缺陷。
我们所建立的基因分型方法中满足3种标准。首先,它应该覆盖TSC公共数据库中的大量SNPs的数量。其次,为避免SNP特异性的引物,所得到的大量的SNPs是经过仔细选择。最后,为保证准确性必须是可被高度重复的。
为了利用大量已发现的SNP位点,我们致力于TSC和SNP发现中所采用的片段化方法,即用EcoRI, BglII和 XbaI 限制性酶进行消化, 接着选择了400- 800bp范围 的片段。我们通过优化扩增条件并且选择性扩增这种大小的片段来代替凝胶法分离片段大小。我们所采用的生物化学方法是通过PCR 或者FSP的方法来进行片段化选择,可见图1及本文下面的详细描述。
图1通过PCR进行片段选择(FSP)
由FSP所产生的靶目标被标记后同芯片杂交。每个EcoRI, BglII 以及 XbaI 片段代表接近4×107 bp基因组DNA。典型的同类片段芯片杂交显示很强的信号密度,而相等量的人类全基因组DNA (3.2×109bp)芯片杂交信号密度就低得多。SNP通过等位基因特异性杂交, 并用针对高度复杂的样本的统计学分析得到。我们用108个个体验证这种统计算法。我们观察到与三种可能的基因型相关的基因簇(Cluster),一套保守算法确认了14,548高质量的SNPs。测定了38个样本检测的重复性和准确性(Methods),发现可以达到95.8%的平均检出率(检出的SNP总数除以总的检测数),同其他基因分型的方法相比有约99.1% 的一致性。
我们用检测了3种基因片段,每个片段接近43Mb,杂交不同的分别芯片。然后,我们通过产生一系列从43到425Mb复杂度增高的目标样本检测检出率及一致性。我们将这些样本同SNP芯片杂交,来检测XbaI 消化后的片段,并确定3种靶DNA量的检出率和一致性 ( 图2a,b)。随复杂度增加, 检出率和一致性均降低;然而,当靶片段总量低时这种效果则更明显。因此,有可能通过提高靶DNA的量对高度复杂的样本(<300Mb)进行基因分型,并达到99%以上的准确性。
我们用WGSA确定了来自于60个无关个体的DNA序列中的SNP等位基因频率。这些个体分别来自于3大人类种族:非裔美国人,高加索人以及亚洲人。主要的SNP位点在所有3种人群中是多态性的。这同含有多种族的验证组(包括这3种人种以及另外2种(当地美国人和墨西哥裔美国人))的预期是一致性的。在此分析中,非裔美国人、高加索人和亚洲人样本中分别有343,535和1,219个标记是单态性(也就是杂合性为0)。
我们这次研究的标记在非洲美国人、高加索人和亚洲人中的平均杂合性为0.348, 0.354和 0.322,表明大部分的SNP信息可用于种群研究。
我们用FST的统计算法,一种对2种种群间地理结构的评估, 对每个SNP进行计算。FST值在0到1之间变动;当种群间等位基因频率的差异增高时,FST值也随之增高。非洲美国人对高加索人,非洲美国人对亚洲人,高加索人对亚洲人的FST分别是0.061、0.094和 0.065,因此,大多数标记表明种群间频率差异小。这些值同以前报道的在不同样品系列中通过较少的位点计算出的FST值一致。非裔美国人和亚洲等位基因频率的比较比另两种比较得出的FST值总体来看要高一些。我们的研究显示了尽管大多数SNP在三种人群中表现较低的等位基因频率差异,有一组SNP其等位基因频率在一个种群中显著不同于另外2组。这些祖先-信息相关的标记物(AIMs),可用于MALD(map complex diseases using admixture-generated linkage disequillibrium)分析,定位多种复杂疾病。在非裔美国人对高加索人,非裔美国人对亚洲人和高加索人对亚洲人的比较中,分别有343,788和 374个 SNP位点其FST值大于0.4
SNP为进化过程中出现的序列改变。为了确定哪些等位基因代表祖先状态(ancestral state) ,我们将黑猩猩和大猩猩的DNA样本进行基因分型。黑猩猩和大猩猩的DNA分别与人存在1.5%和2.1%的差别。我们曾用涵盖14,548个人SNP位点的人SNPs芯片对黑猩猩和大猩猩进行基因分型研究。我们对黑猩猩和大猩猩的基因型检出率分别为77.1%和71.8%(数据未提供)。几乎所有标记在两种大型猿中表型为纯和的:对黑猩猩为97.8%,大猩猩为97.7%,这同SNP进化的历史是一致的。我们设定祖先等位基因(ancestral alleles)只针对哪些在黑猩猩和大猩猩中都为纯和的SNP位点,在这两种物种中为同样的基因型。总共有8,386个这样的SNP位点。
同这些理论预测一致的是,以前的一组多人种样本内小量的SNP位点研究的结果也显示了等位基因频率与祖先状态(ancestral state)的正相关性。我们通过检查3大类人种群中大量的SNP位点进一步深化了这个结果。我们将黑猩猩和大猩猩,也即祖先的等位基因分布作为非裔美国人、高加索人和亚洲人中SNP等位基因频率的功能作图,我们发现在每个例子中都存在很强的正相关性;SNP等位基因的频率越高,则祖先等位基因(ancestral allele) 的比例越高(图3) 。非裔美国人曲线的斜率是 0.97, 表明祖先状态的和等位基因频率是接近一比一的相关性,这同理论上的预测是接近一致的。相对应的高加索人和亚洲人各自为0.62和0.52。这表明这两种人群中,祖先等位基因不总是最频繁;在这两种人群中,更新的等位基因更频繁的情况约占20%。这些数据同出现在高加索人和亚洲人群的人口统计相关信息(如人口瓶颈及扩张)和现今一些选择性事件(如地区适应性)一致。这也同50,000年前人类走出非洲,迁移到欧洲和亚洲的假设是一致的。
图3在3种种群中有功能的等位基因频率的祖先等位基因的百分率
这些研究提出了同时分析14,548个SNPs,不同于采用位点特异性PCR或自动化的原理及数据。这个技术易于进行连锁分析,快速确定等位基因频率, 发现其他种群的AIMs连锁分析,确定肿瘤的DNA拷贝数变化。我们可很容易通过WGSA对更大量的(如<100,000)SNP进行分型。基因芯片的技术改进使我们可以在每张芯片上合成更多的SNP,在样本制备技术上的提高可以对更复杂的片段进行基因分型。我们的方法不仅可以对大量的SNP进行测量,也可以测量其他复杂的机体。这个技术可以测定超过100,000个SNP, 它将被用于建立haplogype maps ,及全基因组的连锁不平衡性的图谱定位。利用这些工具,在进行基因研究时可揭示复杂人类基因表型的分子基础,从而更好地理解我们的物种进化历史。
方法:
芯片设计。为了尽可能的在最小数量的芯片上进行尽可能多的SNPs的分型,我们建立了新的生化方法和用芯片进行SNP的分析,这种方法可以取代那些通过扩增来预测SNP的方法。人类基因组测序草图的完成可指导进行总基因组DNA insilico消化后, 确认所需大小的片段和预测在这些片段上的SNP位点的可能。我们排除了含有重复性序列的片段;这些片段中的SNP在TSC中大概占25-30%。我们合成了一系列的11张SNP芯片,表达了来自3种不同的基因组片段( EcoRI,BglII and XbaI)的共71.931种独特的SNP位点。每个位点设计了总计56种探针。对于每个SNP位点,4类探针(25-mer)被合成,沿着含有SNP序列的双链含概了7个位点,SNP所在的位点(位于中心),即为0位点,其他分别定为–4,-2,+1.+3,+4。正义链和反义链都设计了相应的探针,并且这两条链都分别设计7个位点的探针—— 对于2个SNP等位基因(A、B)分别设计了—个完全配对探针(PM, perfect match)和中心的单个碱基不配对的不配对的探针(MM, mismatch)。这四类探针组成一个probe quartet。将每个SNP的探针数从56个降低到40个而不降低检测的准确性是可以做到的 ( https.//www. Affymetrix.com /products /arrays/specific/10k.affx )。计算检测信号的运算公式,(PM-MM)/(PM+MM) 来判定检测信号的特异性,并使用基因分型的统计进行检测值的过滤。约9%SNP其分辨值& 0.03,将在分类前被过滤,导致的因素有很多:包括人类基因组测序草图中的错误、不易扩增带2级结构的位点,或者与其他基因序列存在交叉杂交。
DNA样本的准备。所有的样本DNA包括24个个体选自PDI-24(polymorphism discovery pane),6个不相关的个体选自于CEPH( Centre Erude Polymorphism Human),20个非裔美国人、20个亚洲人、38个高加索人选自于TSC 等位基因频率库,黑猩猩(NA03448A)和大猩猩(NF05251B),所有均通过Coriell Institute作医疗研究,这项研究是National Institute of General Medical Science Human Genetic Mutant Cell Repository中的一部分。
Target preparation
总共用250ng基因组DNA,用20单位的限制性内切酶EcoRI、BglII 或者 XbaI ( New England Biolabs(NEB)) 在37度消化4小时。在75度热失活20分钟,消化后的DNA同0.25 μM 的接头和DNA连接酶在标准连接缓冲液(NEB)中16度共同孵育4小时。然后在95度孵育5分钟热激活酶。通过扩增连接了接头的DNA来扩增靶目标,PCR缓冲液II(Perkin Elmer)包含2.5 mM MgCl2 、250μM dNTP、0.5μM的引物、50单位的Taq酶( Perkin Elmer)。PCR循环如下:95度10分钟,接着58度15秒,72度15秒,接下来95度10秒,58度15秒,72度15秒共20个循环,再接下来95度20秒,55度15秒,72度15秒共计25个循环,最后55度15秒,72度15秒。在72度延伸7分钟。这些扩增产物用YM30柱子(Microcon)在3,000*g离心6分钟进行浓缩。柱子用400μl水洗涤2次,离心14,000*g,然后颠倒(inverted),3分钟离心3,000*g 用干净管子收集。样本再用0.045单位的DNase (Affymetrix)和0.5单位的小牛小肠的磷酸酶 (Gibco ) 在RE缓冲液no.4(NEB)在37度温育30分钟。酶95度灭活15分钟。样本用15-20单位的末端转移酶标记,18μM 生物素标记的ddATP(NEN)在TdT缓冲液37度 4个小时。在热失火95度10分钟后,样品被注入芯片中,遵照操作指南(Affymetrix)杂交过夜。用0.6x SSPET 洗液在洗涤工作站中洗涤芯片,接着3步染色步骤(省略)。最后进行扫描芯片(Affymetrix)。
重复性和准确性
重复性是通过确定38个样本的基因分型的一致性来确认。38个样本的基因型检出率的百分率为91.1%到97.9%(见table 1)。平均的genotype 检出率 是95.8%± 1.2%( 平均± s.d.),证实高度的重复性。我们研究了多种酶消化片段的SNP并用2张或者更多的芯片验证。205个SNP合成于2张或者更多张芯片,分析不同的酶片段,30个个体的基因型结果的一致性为99.5%。
我们用2种方法来确定了基因型数据的准确性: 直接的,用其他技术来分析基因型;间接的,通过计算家族中孟德尔遗传错误率。均证实基因芯片有较好的重复性和准确性。
等位基因频率的确定
在3种人群的每种14,548个SNP检出值中, 我们提供每个人群中至少75%的个体中测出的SNP位点(13,647 个SNP)。比较一组高加索人(20人)同另外一组高加索人(28人)的等位基因频率,显示了他们之间的高度相关性(R2= 0.96),表明40个染色体样本提供了在这种人类种群中的SNP等位频率的稳定的评估。
标记分布(Marker distribution)
所有的SNP信息均可在TSC中找到。SNP的间距的平均值和中点值分别为173kb和80.8kb。所有这些标记中,5,058个SNP位点被定位在50kb 或者更短的间距。3,868个定位在25kb或者更短的间距。
数据来源
来自于108个个体所提供14,548个 SNP分型的信息(包括从等位基因研究中的60个个体的所得到的信息)以及黑猩猩和大猩猩的基因型,所有信息均可在 https://ncbi.nlm .gov/SNP/under the handle”AFFY.” 中查询到。