Nature子刊介绍MACS使用方法

2012-09-19 10:12 · pobee

同济大学生命科学与技术学院、哈佛大学公共卫生学院和达纳法癌症研究所的研究人员利用MACS模型分析特定序列富集区,他们解释了如何注释和可视化MACS的分析结果。 用这种算法分析包含3000万个读长的ChIP-seq数据集需要约3GB的RAM和1.5个小鼠的计算时间,这一预计随着序列的覆盖度增加,相关研究发表在国际权威杂志《自然·实验方法》上。

计算模型分析特定序列富集区

计算模型分析特定序列富集区

来自同济大学生命科学与技术学院、哈佛大学公共卫生学院和达纳法癌症研究所的研究人员近日在国际权威杂志《自然·实验方法》(Nature Protocols)上发表了题为“Identifying ChIP-seq enrichment using MACS”的实验手册。

来自同济大学生命科学与技术学院的张勇(Yong Zhang)博士以及哈佛大学公共卫生学院和达纳法癌症研究所的刘小乐 (Xiaole Shirley Liu)博士为这篇文章的共同通讯作者。张勇博士从事生物信息学及表观遗传组学研究。后者的工作侧重于基因调控机制的生物信息和计算生物学研究。

分析特定序列富集区

当前研究人员广泛地利用染色质免疫沉淀-测序(ChIP-Seq)在全基因组范围内绘制转录因子结合位点和组蛋白修饰状态。ChIP包括几个基本的步骤:将蛋白质交联到染色质上,剪切蛋白质,用特异的抗体沉淀目的蛋白及相关DNA,以及纯化相关DNA片段等。ChIP通常会生成数毫微克到数百毫微克的DNA,它们是环绕转录因子结合位点或组蛋白标记位点的75- 到300-bp的片段。高通量测序往往会生成数以百万计的来自ChIP-DNA片段5′末端的25- 到75-bp的序列(也称作短读,short reads)。
 
ChIP-seq数据分析通常以回到参考基因组绘制短读作为开始。尽管许多绘制的读长分散在整个基因组,其他一些存在于构成读富集区域(read-enriched region)的DNA簇中。读富集区域代表了转录因子结合或组蛋白标记位点。多余大多数转录因子和例如H3K4me3等几种组蛋白修饰,ChIP-seq读长通常聚集在几百个bp的窄峰中。而对于一些转录因子例如RNA聚合酶II(RNA polymerase II, pol II)和诸如H3K36me3等其他的组蛋白修饰,读富集区域是宽阔的,跨越数万个bp。例如GC含量、读可作图性(mappability)、DNA重复、拷贝数变异以及局部染色质结构等因素都可以影响基因组不同位点的读分布。

基于模型的ChIP-Seq分析(MACS)是一种设计用于鉴别来自ChIP-seq数据读富集区域的计算机方法。根据科学网统计,自2008年被首次发布以来MACS以被超过300个研究引用,其中包括许多很有影响力的研究工作。MACS由4个步骤构成:去除冗余的读长(reads),调整读取位置,计算峰富集(peak enrichmen)和估计经验错误发现率(FDR)。

在这篇文章中,研究人员提供了关于如何安装MACS以及如何使用它来分析具有不同特征的三种常见类型ChiP-seq数据集的详细示教:序列特异性的转录因子FoxA1,带有窄富集的组蛋白修饰标记物H3K4me3和宽富集的H3K36me3标记物。研究人员还解释了如何注释和可视化MACS的分析结果。用这种算法分析包含3000万个读长的ChIP-seq数据集需要约3GB的RAM和1.5个小鼠的计算时间,这一预计随着序列的覆盖度增加。

现在刘小乐实验室网站 https://liulab.dfci.harvard.edu/MACS/ 向公众提供MACS的开放资源,供免费获取。

Identifying ChIP-seq enrichment using MACS.

Feng J, Liu T, Qin B, Zhang Y, Liu XS.

Model-based analysis of ChIP-seq (MACS) is a computational algorithm that identifies genome-wide locations of transcription/chromatin factor binding or histone modification from ChIP-seq data. MACS consists of four steps: removing redundant reads, adjusting read position, calculating peak enrichment and estimating the empirical false discovery rate (FDR). In this protocol, we provide a detailed demonstration of how to install MACS and how to use it to analyze three common types of ChIP-seq data sets with different characteristics: the sequence-specific transcription factor FoxA1, the histone modification mark H3K4me3 with sharp enrichment and the H3K36me3 mark with broad enrichment. We also explain how to interpret and visualize the results of MACS analyses. The algorithm requires ∼3 GB of RAM and 1.5 h of computing time to analyze a ChIP-seq data set containing 30 million reads, an estimate that increases with sequence coverage.

文献链接Identifying ChIP-seq enrichment using MACS.