
单分子测序技术破解鹦鹉学舌和艾滋病毒剪切等现象
当美国太平洋生物科学公司 ( PacBio)宣布它将开始销售其商业PacBio RS系统时,该公司预计第三代测序产品的发售将“立马扩展DNA测序在诸如癌症研究、病原体检测和农业等领域的应用”。不同于市场上的第二代系统,PacBio RS系统能够实现单分子实时测序反应,在一天内生成结果。不过,其测序结果的高错误率已经被视为这一技术的主要限制,表现在测市场对该测序产品的反应不如预期。
马里兰大学国家生物防卫分析和反制中心的Adam Phillippy及同事们开发了一种新的融合技术,将第二代和第三代测序技术结合到一起生成了近乎完全准确的长读取,这一成果报道在的《自然生物技术》(Nature Biotechnology)杂志上。将这一技术应用到鹦鹉基因组、 艾滋病毒剪切模式以及极地微生物基因组。 “我们开发了首个能够校正和组装PacBio RS单分子序列读取的算法,并证实PacBio RS技术的高错误率可以设法得到控制,从而大大改善基因组和转录组的组装,”Phillippy说。
单分子测序技术破解鹦鹉学舌的调控序列
有科学家称,他们组合了一条更完整的基因链条,这个基因链条可以控制鹦鹉模仿主人和其他声音的能力。
研究者用一种新技术分解了鹦鹉的基因组中的某个区域,进行了单分子测序,并用来自较早的DNA解码设备的数据对其进行了纠错。单分子测序“在去年获得了大量宣传”,因为它产生了测序长读取,“使组装基因组中的复杂部分变得更容易,”研究参与者之一,Duke大学的神经生物学家Erich Jarvis说。
Jarvis对那些控制鹦鹉模仿能力的序列很感兴趣,因为它们能帮助神经科学家了解控制人类语言发展的那些基因区域。Jarvis首先尝试用第二代测序技术把基因区域拼凑在一起,这种测序技术可以一次性读取100到400个碱基对,然后用几天的时间把它们组合成一个基因组序列草图。在进行测序的时候,科学家发现读取的长度不足以组装某些基因的调控序列,这些基因控制着大脑中负责语言学习的回路。
马里兰大学的计算生物学家Adam Phillippy和Sergey Koren都是基因组组装方面的专家,他们在一次会议上听到了Jarvis关于测序的建议,并提出了一种可能的解决方法,调整处理DNA碱基对的算法。但是这样的改进似乎仍然不够。
去年,Roch 454已经可以读取1000对碱基对,太平洋生物科学公司(Pacbio)的单分子测序仪器也做到了这一点。该公司可以一次性生成2250到23000个碱基对,在一天左右的时间里制作出完整的基因组草图。
Jarvis和其他人假设,新的技术将解决这个基因组测序的挑战。通过Assemblathon竞争,科学家发现,太平洋生物科学公司的仪器在精确地解码虎皮鹦鹉基因组的某些复杂区域时遇到了一些困难。这种仪器的错误率很高,在一个DNA序列中会出现五分之一到六分之一的错误基因编码。Jarvis说,由于这样的错误,用这些较长的读取来组装基因组几乎是不可能的。
但是在一组科学家的共同努力下,Phillippy、Koren和Jarvis纠正了太平洋生物科学公司的测序仪器的错误,采用了第二代测序技术生成的较短的、更精确的编码。这样的修正将单分子测序仪器的错误率从15%减少到了不到0.1%。“最终,我们可以组装基因的调控区域,比如FoxP2和egr2,我们对它们的兴趣在于它们能控制语言学习行为,”Jarvis说。
他解释说,FoxP2是人类的语言发展和鸟类学习模仿发声所必需的基因。Erg1是控制大脑根据新的经验进行重组的基因。
由于能够解码和组织控制这些区域的DNA,神经科学家也许可以更好地理解是什么样的基因机制使鸟类能够模仿人声和唱出美妙的歌曲。他们也许还能收集更多的信息,了解影响人类学习沟通和语言能力的基因因素。Jarvis和同事计划在将来的论文中更详细地描述鹦鹉的基因密码。、
单分子测序技术揭示艾滋病毒剪切新模式
利用PacBio单分子测序方法对HIV-1病毒转录组可变剪切模式的研究。HIV-1病毒是一种典型的RNA病毒,其基因组比目前已知的任何一种病毒基因组都复杂。HIV-1只有一个转录起始位点,却有多种剪切异构体,是研究可变剪切的一种较好模型。
PacBio单分子测序的一大突出优势就是读长长,利用这样的长读长研究者们就能够更容易的分析选择性剪切模式。在这项研究中研究人员先将HIV-1的转录组进行反转录,随后再进行cDNA测序。
研究人员分别提取不同病人体内感染了HIV-1病毒的T细胞和HOS细胞中的RNA,反转录获得了病毒的cDNA产物,而后在PacBio平台上进行单分子测序。通过分析,他们发现了109个HIV-1独有的可变剪切产物,其中两个还编码新的蛋白。研究表明,HIV-1的剪切模式具有很大的异质性,在不同细胞、不同病人中其剪切模式和异构体明显不同,而且即使是在同一细胞同一病人中,在不同的时间段剪切模式也会发生改变。
该研究证实,PacBio生成的长读长数据能够很好的帮助研究人员进行转录组研究,有助于在大范围内对可变剪切位点进行直接分析。此外PacBio的CCS测序模式能够提供准确度非常高的序列数据,使得转录组可变剪切位点分析更加准确。
单分子测序技术组装出极地恶劣环境下的微生物基因组
韩国极地研究所的 Park博士一直致力于极地微生物研究,为了揭示从南极乔治王子岛分离得到的Streptomyces菌株的基因组信息(7.6Mb),Park博士的研究团队首先利用illumina Hiseq 2000平台对其基因组进行测序。Streptomyces 的基因组中GC含量高达71%,即使利用Hiseq2000平台进行了200×深度的测序,仍无法获得完整的基因组,组装时产生了185 个contigs,随后使用Sanger法仍然无法有效的填补gap。
Park博士表示,用其他的短序列测序技术仍然“不可能”填补这种高GC含量的基因组gap,所以他们转而利用PacBio RS平台对该基因组进行验证。由于PacBio RS测序技术具有单分子分辨率,不引入PCR过程,没有GC偏向性,研究人员利用该技术获得了高准确度的CCS数据和平均1.5kb的长片段进行基因组组装,仅仅对基因组覆盖15×就能组装得到26个contig(减少了86%),大大降低了基因组组装的难度,而且gap也大为减小,使得他们首次获得了该细菌的完整基因组信息。
Park博士和他的团队认为PacBio的单分子实时测序技术“对高GC含量的基因组有着更好的测序能力,并且也是一项非常好的改善de novo测序和组装的新工具”
Park博士受到该技术的鼓舞,决定继续利用PacBio技术破解其他极地微生物基因组的组装难题,挑战此前“不可能完成的任务”。
