第三代测序技术展望

2012-03-01 11:00 · tiffany

DNA测序正处在技术上天翻地覆的剧变中,以前看似高不可攀的奢侈性研究活动(如个人基因组测序),在短短几年之间,变得越来越切实可行了。本文就测序技术的发展尤其是第三代测序技术和代表公司做一总缆。

导读:DNA测序正处在技术上天翻地覆的剧变中,以前看似高不可攀的奢侈性研究活动(如个人基因组测序),在短短几年之间,变得越来越切实可行了。本文就测序技术的发展尤其是第三代测序技术和代表公司做一总缆。

本文就测序技术的发展尤其是第三代测序技术和代表公司做一总缆。DNA测序正处在技术上天翻地覆的剧变中,以前看似高不可攀的奢侈性研究活动(如个人基因组测序,宏基因组学研究,以及对大量重要物种的测序),在短短几年之间,正以急速的步伐而变得越来越切实可行了。我们可以看到测序通量(测序数据量)的大幅增长,原始数据中每个碱基的测序成本急剧下跌,并伴随着以巨资购买仪器以引进新技术的需求。

第一代测序技术

第一代DNA测序技术于1975年由桑格(Sanger)和考尔森(Coulson)开创的链终止法, 1976-1977年由马克西姆(Maxam) 和吉尔伯特(Gilbert)发明的化学法(链降解)。在1977年,桑格测定了第一个基因组序列,是噬菌体X174的,全长5375个碱基。

后来的四色荧光桑格测序法(每一种荧光代表四种碱基中的一种)被用在自动毛细管电泳测序系统中,此系统由应用生物系统有限公司(Applied Biosystems Inc.)推上市场,后来该公司被整合入生命技术公司(Life Technologies)和贝克曼▪考尔特公司(Beckman Coulter inc.)。

2001年第一个人类基因组复合序列大体上由细管电泳测序系统来测定完成的,不仅耗资庞大,花费人力无数,而且历时超过十年。尽管当时的基因组研究处于有待完善的过程中,但其作为基因组的"参照"序列而被采用,已成为生命科学转化为实际应用的基础,并继续对研究基因型-表现型的关系发挥着重要作用。

第二代测序技术

第二代测序技术通常被定义为同步化三磷酸核苷酸的洗脱方法和同步化的光学检测方法的结合。但这种定义不是很严格。第二代测序技术靠的是连接测序,或者合成测序,包括焦磷酸测序和可逆性的链终止法。由罗氏(Roche),以鲁米那(Illumina), 赫利克斯(Helicos)和生命技术公司(Life Technologies)以商业化提供的仪器,以短的连续性的片段序列和测序阅读长度的形式,每周输出数十亿碱基对(Gbp)的DNA序列。

在过去的几年里,主导第二代测序仪市场的几家公司,纷纷依靠已知的参照基因组(通过第一代桑格测序方法完成的人类基因组),以更好更经济的第二代测序方法生产出了拼接好的人类全基因组序列。同当年以ABI公司的桑格毛细管电泳测序仪产生出克莱格.文特尔(J.Craig Venter)的基因组序列草图所花的成本相比, 由罗氏(Roche)的454基因组测序仪FLX,以鲁米那(Illumina)的基因组分析仪,和赫利克斯(Helicos)的Heliscope测序仪得到原始数据所花成本,大体上分别下降了1个, 2个和3个数量级。不过,在这些报道中,只是计入了耗材和试剂成本。这些新的"大规模平行"测序仪需要大量的在仪器设备上投资, 因为许多这样的高通量仪器价格都在每台50-100万美元之间。而操作这些仪器和进行信息学分析以拼接序列的人力花费也应计入总的测序成本。

第三代测序技术

以将人类基因组测序的成本降到1000美元以下为终极目标,美国国立健康研究院/美国国立人类基因组学研究所(NIH/NIGRI)资助了几个小组以改进第二代测序技术或研发其他的测序方法,包括扫描隧道电子显微镜(Scanning Tunneling Electron Microscope, TEM),荧光共振能量转换(FluorescenceResonanceEnergyTransfer,FRET),单分子检测(Single-moleculeDetection)和蛋白质纳米孔(Protein Nonopores)的应用。

单分子测序

太平洋生物科学公司 太平洋生物科学公司(PacBio)率先研发出一种可靠的基于实时单分子测序技术的第三代测序平台。他们的过程是直接测由DNA聚合酶将荧光标记的核苷酸 掺入互补测序模板。该技术的核心是一个零点启动模式的波导(Zero-mode Wavelength,ZMW)纳米结构的密集排列, 这一排列阵可以进行单个荧光分子的光学审视。

太平洋生物科学公司现在商业化提供PacBio RS测序仪系统。这种仪器的耗材包括一次性使用的零点启动模式阵列(被称为实时单分子测序芯片,SMRT cells),一套含有150000个零点启动模式阵列和制备实时单分子测序铃式模板的试剂盒。 最近,这种PacBio RS测序仪用于在对海地爆发的霍乱研究的五种霍乱弧菌(Vibrio Cholerae)菌株的快速基因分型中。对5中菌株的平均测序读长为700-1000碱基, 平均测序覆盖深度为28到60倍,测序准确度一次性达标率平均为81-83%。 报道中还显示,对3种菌株的一小部分测序运行的测序读长接近到3000碱基。

边连接边测序法

全基因组学公司(Complete Genomics)全基因组学公司的测序平台是以杂交和连接反应为核心的。当通过杂交和连接进行测序的方法出现以后,全基因组学公司推出了新的样品处理方法和纳米阵列平台。基因组DNA首先经过超声处理,再加上一些接头,然后模板环化,酶切。最后产生大约400个碱基的环化的测序片段,每个片段内含有4个明确的接头位点。环化片段用Φ29聚合酶扩增2个数量级。一个环化片段所产生的扩增产物称为DNA纳米球(DAN nanoball, DNB)。纳米球被选择性地连接到六甲基二硅氮烷处理的硅芯片上。

DNA纳米球的运用,加上形态各异的阵列, 使这种测序方法具有几个优势。DNA纳米球通过增加杂交位点的数量而增强了信号强度。DNA纳米球的大小与芯片上连接位点的大小相同,因而导致每个位点连接一个DNA纳米球。由于芯片上的位点大致彼此相隔1微米,所以有多达30亿的DNA纳米球可固定到宽1英寸长3英寸的硅芯片上。除了增加每张芯片上的测序片段的数量外,DNA纳米球的大小和间隔使得检测器像素使用最大化。与另外的二代测序技术比较,这种杂交芯片降低试剂耗费但增加通量或数据产出。显然这种技术与Sanger/CE和第二代测序技术比较可大大增加了通量,但它也有几个不足。首先,环化片段的产生会导致基因组某些区域没有被充分显现,这样会导致后续的基因组组装工作并不完整。再者,环化测序片段的大小(~400碱基)以及非常短的读长(~10碱基)妨碍了对基因组完全的和精准的组装,因为这些环化片段常常可能要比一些长的重复区域短。

边合成边测序法

边合成边测序是二代测序技术的基础,如454测序平台和Illumina测序系统都是建立在它的基础之上。这些方法与第一代测序技术比较增加了通量,然而光学成像系统需要检测每一个测序步骤。作为生命技术公司新创分公司的Ion Torrent,运用pH变化来检测碱基掺入过程,在将新一代测序系统带入市场的道路上取得了重要进展。

Ion Torrent公司 根据Ion Torrent公司的专利申请,场效应晶体管(Field-effect Transitors,FETs)被用来检测微池结构的pH变化(如图4)。为了增加通量,Ion Torrent测序芯片运用了高密度的微池阵列。每个微池就是一个单独的DNA聚合反应的小室,其中包含有一个DNA聚合酶分子和一个待测序片段。就在微池层的下面,是离子敏感层,紧接着是一个高密度的和微池一样排列的场效应晶体管阵列亚层。和焦磷酸测序类似,4种核苷酸的连续循环导入微池能保证原始序列分辨率,因为场效应晶体管能感受到核苷酸掺入时pH值的变化,并把这种信号转变为可记录的电压变化。因为电压的变化与每一步掺入的核苷酸数目有关,所以Ion Torrent测序芯片可对重复序列进行分辨。由于这种测序方法的要一步步连贯的特性,如果反应步骤之间反应孔没有清洗干净,错误累积就会发生。最后,和前一代焦磷酸测序方法一样,要测通长达5-10碱基的由同一种核苷酸形成的小重复序列(同聚体区域)仍将是一个挑战。

纳米孔测序技术

还在发展中的纳米孔测序方法是很有潜力的第四代技术。因为这种方法不再需要光学检测和同步的试剂洗脱过程了。这是一种基于纳米孔(纳米洞)结构的完全不同的测序技术,由Branton和Bayley在以前的综述中描述过。单个碱基的读取可以靠测定经由纳米级别的孔洞而跨越或透过薄膜的电导率来进行。

纳米孔技术可以广泛地归纳为两类:生物类和固态类。α溶血素是一种能天然性地连接到细胞膜中继而导致细胞溶解的蛋白质,它第一个被用来做成生物纳米孔模型。第二类纳米孔是以硅及其衍生物进行机械制造而成。 使用这些合成的纳米孔可以降低在膜稳定性和蛋白定位等方面的麻烦,而这些正是牛津纳米孔公司所创立的生物纳米孔系统一直遇到的问题。例如,Nabsys就发明了一套系统,他们以汇聚的离子束将硅片薄膜打成纳米孔,用于检测与特异性引物进行了杂交的单链DNA穿过纳米孔时的阻断电流变化。 IBM创建了一个更为复杂的系统,能有效地使DNA位移暂停,并在暂停的时候通过隧道电流检测识别每个碱基。

蛋白纳米孔测序法 牛津纳米孔技术公司(Oxford Nanopore technologies,以前的Oxford Nanolabs),已经解决一部分上述的技术难题,并将纳米孔技术的引入了其商业化产品(GridION系统)。由牛津大学教授Hagan Bayley创办的牛津纳米(Oxford Nanopore),旨在将他实验室的生物纳米孔研究成果进行商业化。

牛津纳米孔技术也正致力于链测序技术,即当单链DNA片段通过纳米孔时检测每个碱基。这个方法可能比核酸外切酶测序方法更快更准确。因为所有的核苷酸都是相互连接的,所以可以避免读错方向。不过,真正的挑战在于,当它们通过纳米孔时,如何精确地读取每个单个碱基。

长距离阅读DNA的扩展方法

目前大部分的DNA测序技术都是依赖于对小于400个碱基的DNA片段的短读取方法。目前有几种不同的新方法,它们着眼于对长达百万碱基的DNA片段进行测序。最近一些报道都强调了在对原核生物的基因组拼接中短读取技术的局限性。对长DNA区域进行绘图,可以提供重复、缺失、插入、转位的数据,但这些却是现有短读长测序方法不能做到的。

通过光学绘图来做最后组装 威斯康星大学麦迪逊分校David C. Schwartz教授及其同事开发了仅有的一套系统(光学绘图,Optical Mapping),可以用于数据策略指导、验证、完整复杂基因组的组装。这种高度自动化系统是第一个具备全基因组分析能力的单分子平台。光学绘图系统拥有善于做序列比对排列的计算工具,可以在全基因组范围内将新发现的序列整合到从头测序的图谱中。

Schwartz实验室则开发出更为先进的基因作图方法,通过增加测序读数到长的双链分子,并且开发了Nanocoding系统。在一个独立的反应混合物中,他们将待测的基因组片段,用具有打口功能的限制性酶在同源识别位点处选择性地剪切双链DNA中的一条链。新产生的缺口被贴上用荧光染料标记的核苷酸。这样就有了独特的单分子条码,因为最终产物是全长双链DNA,它的每个酶识别位点以荧光修饰。

展望

在新型DNA测序技术领域里,各种技术和资助以从未有过的速度在增长。出现了很多不同的方法,横跨不同代的新技术。每种技术都有自身的优势和局限,虽然第二代和第三代平台有很大的通量,但基于桑格原理的毛细管电泳测序仍是超高精度测序的黄金标准,是迄今为止唯一既能为人类基因组既提供从头测序和又有从头组装技术的技术。下一代测序技术为了获得广泛认同,无论是第二或第三代平台中的哪一种,都必须也同时具备一套第一代毛细管电泳测序平台,并同时将由着两套平台得到的从头测序样品的测序结果和组装结果进行定量比较,方能使人放心而得到广泛的认同---换言之,无论第二,三代测序平台怎样发展,它们仍然依赖于第一代平台的协助作用。

目前,现有的测序技术局各有其局限性,为了达到对一种复杂的全基因组进行从头测序,可能需要随机采用几种技术,彼此协调配合,以达到测序的高通量,准确性、高读长的相邻重叠片段、和大范围的基因绘图。

关键词: