PNAS新论文详解ChIP高通量测序的数据处理

2013-04-11 11:32 · johnson

为解决目前ChIP-seq技术数据处理的问题,约翰霍普金斯大学、中科院北京基因组研究所等处的研究人员研究出dPCA方法可有效分析大量ChIP测序数据,同时也可研究不同生物条件下基因调控的动态变化。

约翰霍普金斯大学、中科院北京基因组研究所等研究机构为了解决目前染色质免疫共沉淀测序技术(ChIP-seq)处理数据的问题,所研发的dPCA方法可有效分析大量ChIP测序数据,以及研究不同生物条件下基因调控的动态变化。相关成果公布在PNAS杂志上。


测序染色体功能序列的新技术

研究体内蛋白质与DNA相互作用的染色质免疫共沉淀技术可检测体内反式因子与DNA的动态作用,还可以用来研究组蛋白的各种共价修饰以及转录因子与基因表达的关系。随着高通量测序技术的发展,ChIP-seq技术是将染色质免疫共沉淀技术(ChIP)与下一代高通量测序技术相结合,并成为功能基因组学、特别是基因表达调控领域研究的关键技术。这一技术主要包括几个基本的步骤:将蛋白交联到染色质上、剪切蛋白、用特异的抗体沉淀目的蛋白和DNA以及纯化相关 DNA片段等。

ChIP-Seq首先利用抗体特异性地富集蛋白-DNA复合体,然后纯化DNA片段,并经末端修复、加A和加测序接头后,再经低循环数的PCR扩增和琼脂糖凝胶电泳回收特定大小片段,完成测序文库制备的工作。构建好的文库经扩增测序后,并通过生物信息学分析,鉴定出目的蛋白与基因组DNA结合的位点。


ChIP通常会生成数毫微克到数百毫微克的DNA,它们是环绕转录因子结合位点或组蛋白标记位点的75- 到300-bp的片段。高通量测序往往会生成数以百万计的来自ChIP-DNA片段5′末端的25- 到75-bp的序列(short reads)。

染色质免疫共沉淀测序的技术优势

灵活度高:任何物种任何序列都可进行实验,无需已知的基因组序列信息。

检测范围广:覆盖整个基因组,包括芯片无法检测的重复序列区域。

定位精确度高:在实际结合位点的50个碱基范围内精确定位。

灵敏度高:每个ChIP样本可获取数百万个有效序列标签。

dPCA方法解决ChIP-seq的数据分析难题

约翰霍普金斯大学的计宏凯博士是该论文的通讯作者和第一作者,早年毕业于清华大学,后于哈佛大学获得博士学位,现于约翰霍普金斯大学执教。

生物信息学研究人员在处理ChIP-seq实验带来的海量数据上遇到了新挑战,目前此领域数据处理技术的发展大大滞后于实验技术进步,在该论文中,研究人员采用主差异分析(principal differential analysis),解析多重ChIP-seq数据,从中发现了两种生物条件下不同的蛋白-DNA相互作用。

dPCA方法将无监视研发模式、降低维度(dimension reduction)和统计推断(statistical inference)三要素整合到一个平台上,利用少量主成分元件简要概况两种条件下主要多蛋白协同差分模式。并且对于每个模式,dPCA也能 通过与复制样品中变化条件之间的差异,检测并优先考虑差异基因位点。

这种方法为有效分析大量ChIP测序数据提供了一种独特的工具,可以用于研究不同生物条件下基因调控的动态变化,研究人员指出,dPCA可以用于分析转录因子结合位点处和启动子的不同染色质模式,以及等位基因特异性蛋白-DNA之间的相互作用。