加州大学计算机科学家Pavel Pevzner领导的研究小组开发出了一种新算法SPAdes,可更快、更准确地测序单细胞基因组。SPAdes新算法可用于测序不能适用于标准克隆技术的细菌,后者被称为生物暗物质,包括医院中发现的病原体、深层海洋或人体肠道的细菌。
美俄联合开发出单细胞测序新算法:SPAdes
SPAdes新算法的应用前景
研究人员希望最终能将这种算法应用于癌细胞以监测肿瘤发生的早期阶段——正常细胞向恶性肿瘤细胞转变之前。pevzner和同事将研究结果发表在5月《计算生物学杂志》上,他们在8月8日推出SPAdes新算法。
去年秋天,Pevzner研究小组,与J. Craig Venter研究所单细胞测序先驱Roger Lasken和Illumina研究人员共同合作下,开发出首款处理单细胞测序的软件。研究人员发表在2011年9月的《自然-生物技术》期刊上。在短短几个月内开发出新算法,这一事实表明单细胞测序在飞速地发展,它也是现代基因组学增长最快、最重要的领域之一。
pevzner研究小组包括加州大学圣迭戈分校Jacobs工程学院和和俄罗斯科学院的科学家,与Lasken研究小组一道利用SPAdes新算法去测序细菌的生物暗物质和人体病原体。
俄罗斯方面的研究介绍
国际合作是俄罗斯总统梅德韦杰夫发起的“megagrant”庞大计划的一部分,包括邀请的40位世界级的科学家,旨在帮助苏联解体之后“一蹶不振”的俄罗斯科学再次起飞。Megagrants为俄罗斯引起各个领域的专家,包括一些诺贝尔奖和菲尔兹奖的得主。pevzner是研究小组中唯一一位现代生物学和计算机科学双重背景的研究员。
他同意在俄罗斯圣彼得堡大学(诺贝尔奖获得者Laureate Zhores Alferov称之为精英研究生院)启动DNA和蛋白质测序项目。这不是一件简单任务,整个国家内没有一个专家同时擅长于DNA&蛋白质测序和计算机领域,在这个项目上可用的大量专家只是数学家,多亏了俄罗斯在这一特定领域内卓越、传统的教育。
然而,Pevzner仍下了赌注——和20位数学家和计算机科学家(其中一些是不知道DNA测序的大学生)一道创建算法生物学实验室(LAB),他们接受一系列艰苦的生物信息学培训,仅2个月后开始研究SPAdes基因组组装。Sergey Nurk就是其中一员。
他说:“作为一位大学生,我从事编程有一段时间,并几乎将所用精力都投入这个行业。现在,作为Pavel团队的研究生,我了解寻找更简单、更优雅的解决方案是非常重要的。我也认识到时间的价值以及需要明智地使用它。”
半年后,与南卡罗来纳大学Max Alekseyev 教授和Jacobs工程院Pevzner团队的密切合作下,俄罗斯研究小组开发出新的、极其准确的组装程序。
Pevzner称:“片段组装就像对十亿个元件进行拼装一样,它常常被视为生物信息学中最复杂的问题之一。一个新的组装程序可能需要经验丰富的生物信息学专家花费几年的时间,俄罗斯年轻的研究人员在缺乏生物信息学背景下竟能如此迅速地开发出SPAdes,对于先进组装程序水平的提高,半年时间意味着显著的成就。”
SPAdes: A New Genome Assembly Algorithm and Its Applications to Single-Cell Sequencing
Anton Bankevich, Sergey Nurk, Dmitry Antipov, Alexey A. Gurevich, Mikhail Dvorkin, Alexander S. Kulikov, Valery M. Lesin, Sergey I. Nikolenko, Son Pham, Andrey D. Prjibelski, Alexey V. Pyshkin, Alexander V. Sirotkin, Nikolay Vyahhi, Glenn Tesler, Max A. Alekseyev, and Pavel A. Pevzner.
The lion's share of bacteria in various environments cannot be cloned in the laboratory and thus cannot be sequenced using existing technologies. A major goal of single-cell genomics is to complement gene-centric metagenomic data with whole-genome assemblies of uncultivated organisms. Assembly of single-cell data is challenging because of highly non-uniform read coverage as well as elevated levels of sequencing errors and chimeric reads. We describe SPAdes, a new assembler for both single-cell and standard (multicell) assembly, and demonstrate that it improves on the recently released E+V−SC assembler (specialized for single-cell data) and on popular assemblers Velvet and SoapDeNovo (for multicell data). SPAdes generates single-cell assemblies, providing information about genomes of uncultivatable bacteria that vastly exceeds what may be obtained via traditional metagenomics studies
文献链接: SPAdes: A New Genome Assembly Algorithm and Its Applications to Single-Cell Sequencing
Efficient de novo assembly of single-cell bacterial genomes from short-read data sets
Hamidreza Chitsaz, Joyclyn L Yee-Greenbaum, Glenn Tesler, Mary-Jane Lombardo, Christopher L Dupont, Jonathan H Badger, Mark Novotny, Douglas B Rusch, Louise J Fraser, Niall A Gormley, Ole Schulz-Trieglaff, Geoffrey P Smith, Dirk J Evers, Pavel A Pevzner & Roger S Lasken
Whole genome amplification by the multiple displacement amplification (MDA) method allows sequencing of DNA from single cells of bacteria that cannot be cultured. Assembling a genome is challenging, however, because MDA generates highly nonuniform coverage of the genome. Here we describe an algorithm tailored for short-read data from single cells that improves assembly through the use of a progressively increasing coverage cutoff. Assembly of reads from single Escherichia coli and Staphylococcus aureus cells captures >91% of genes within contigs, approaching the 95% captured from an assembly based on many E. coli cells. We apply this method to assemble a genome from a single cell of an uncultivated SAR324 clade of Deltaproteobacteria, a cosmopolitan bacterial lineage in the global ocean. Metabolic reconstruction suggests that SAR324 is aerobic, motile and chemotaxic. Our approach enables acquisition of genome assemblies for individual uncultivated bacteria using only short reads, providing cell-specific genetic information absent from metagenomic studies.
文献链接: Efficient de novo assembly of single-cell bacterial genomes from short-read data sets