1许可和引用

这个包和底层consensusSeekeR2.0代码在艺术许可证下发布的。你可以自由使用和重新分配这个软件。

如果你使用这个包发布,我们会问你引用如下:

Samb R, Khadraoui K, Belleau P, et al。(2015)使用信息Multinomial-Dirichlet之前与可逆跳转t-mixture估计全基因组分析的核小体的位置。统计应用遗传学和分子生物学。在线发表在2015年12月10日。doi: 10.1515 / sagmb - 2014 - 0098

2介绍

基因组数据,例如基因、核小体或单核苷酸多态性(snp)与基因组通过占据的位置或一个序列。基因组相关的数据集成是通过将数据视为在基因组范围(劳伦斯et al . 2013年)。Bioconductor发展基础设施,包括包等GenomicRanges,IRanges和GenomicFeatures,促进基于范围的基因组数据的综合统计分析。

范围格式是一种方便的方法分析不同实验基因组数据。作为一个例子,调用步骤,高峰一般在ChIP-seq数据的分析,生成NarrowPeak输出。NarrowPeak格式,隔层使用的项目编码(邓纳姆et al . 2012年),包括一个峰值位置位于基因组范围内。

在功能基因组分析识别位置生成一个值被基因组范围,如ChIP-Seq高峰和核小体岗位,复制一个实验可能会导致轻微的预测值之间的区别。调解的结果是很困难的,尤其是当许多复制完成。一个当前的方法用于识别共识地区一群结果由提取基因组范围的重叠区域。这种方法,在大量的实验中,使用时可以小姐,作为副作用,当一个地区实验略有缺失或功能的转变。另一方面,欧盟地区的使用可能导致广泛共识。

作为一个例子,使用综合基因组浏览器显示(罗宾逊et al . 2011年)的,

两个ChIP-Seq山峰编码FOSL2转录因子(DCC加入:ENCFF002CFN)。使用MACS2数据进行了分析(y . Zhang et al . 2008年)使用默认参数和核反应能量设置为0.05。ChIP-Seq峰值是一个基因组的特性可以被定义为一个位置值(峰值位置)和一个基因组范围(丰富地区)。这个例子表明,峰值位置不一定是丰富的中心地区。

alt文本

的consensusSeekeR包实现识别共识novative方式使用位置的特性,而不是最常用的基因组范围。

3consensusSeekeR包

的consensusSeekeR包实现了novative确定共识范围在一组实验中产生的位置值基因组范围包围。的consensusSeekeR包的特点是其使用位置的值,而不是基因组范围,确定地区的共识。位置价值的双重优势,大多数时候,最重要的信息与功能,允许创建consensius区域较小的范围。

使用迭代步骤命令功能位置值从所有实验中,一个固定大小的窗口(由用户指定)与当前功能位置设置起点。所有功能驻留在窗口聚集计算值特性位置然后用于创建一个新窗口。这一次,两次新窗口大小固定用户和它的中心是中值特征的位置。更新功能位于窗口的位置和中值特性是重新计算。这一步是重复的一刻,两次迭代之间的组特性仍然是相同的。最后一组功能位置用于修复共识区域的中心位置。这最后一个地区必须尊重最小数量的实验里面至少有一个特征被保留作为最终的共识。最小数量的实验设置由用户。最后,共识地区可以扩展或/和缩水,以适应当前位置值相关联的区域内。如果新功能位置添加共识地区调整期间,没有再加工的迭代步骤。可能扩展步骤添加新功能的扩展的共识。 However, those new features ranges won’t be taken into account during the extension step.

4加载consensusSeekeR包

与任何R包,consensusSeekeR包应该首先加载使用下面的命令:

库(consensusSeekeR)

5输入

5.1位置和范围

的主要功能consensusSeekeR是findConsensusPeakRegions。的电源输入findConsensusPeakRegions函数是:

一个农庄的特性职位所有实验的元数据字段的名字。
一个农庄的特性范围对所有实验用元数据字段的名字。

要注意,农庄的特性范围只有强制如果expandToFitPeakRegion和/或参数shrinkToFitPeakRegion参数设置为真正的。

输入必须满足这两个条件:

的所有行农庄必须命名实验源。所有条目从相同的实验必须分配相同的名称。
每个特性都必须有一个条目农庄。元数据字段的名字用于关联特征的位置范围。

这是一个例子展示了一个元数据字段的名字可以很容易地创建和行名称可以分配:

# # #初始数据集没有元数据字段(A549_FOSL2_01_NarrowPeaks_partial, n = 3) # #农庄与3和0元数据对象列:链# # # # seqnames范围< Rle > < IRanges > < Rle > # # [1] chr1 (249119914、249119914) * # # [2] chr1 (249120596、249120596) * # # [3] chr1 (249123089、249123089) * # # - - - - - - - # # seqinfo: 25从一个未指明的基因组序列;没有seqlengths # # #添加一个新的元数据字段“name”的每个条目A549_FOSL2_01_NarrowPeaks_partial名称< - paste0美元(“FOSL2_01_entry_”, 1:长度(A549_FOSL2_01_NarrowPeaks_partial)) # # #相同的行名称分配给每个条目名称(A549_FOSL2_01_NarrowPeaks_partial) < - - - - - -代表(“FOSL2_01”,长度(A549_FOSL2_01_NarrowPeaks_partial)) # # #最终数据集元数据字段的名称和行名字的头(A549_FOSL2_01_NarrowPeaks_partial, n = 3) # #农庄与3和1元数据列对象:# # seqnames范围链|名称# # < Rle > < IRanges > < Rle > | <人物> # # FOSL2_01 chr1 (249119914、249119914) * | FOSL2_01_entry_1 # # FOSL2_01 chr1 (249120596、249120596) * | FOSL2_01_entry_2 # # FOSL2_01 chr1 (249123089、249123089) * | FOSL2_01_entry_3 # # - - - - - - - # # seqinfo: 25从一个未指明的基因组序列;没有seqlengths

5.2染色体的信息

染色体信息是强制性的。它确保共识地区不超过染色体的长度。

染色体的信息包含在一个Seqinfo对象。从一些UCSC基因组的信息可以自动获取使用GenomeInfoDb包中。

# # #导入库库(GenomeInfoDb) # # # 19 hg19Info得到人类基因组的信息版本< - Seqinfo(基因组=“hg19”) # # #子集的对象只保留分析染色体hg19Subset < - hg19Info [c (“chr1”、“chr10”,“chrX”))

一个Seqinfo对象也可以创建使用染色体特定基因组分析的信息。

# # #创建一个Seqinfo对象chrInfo < - Seqinfo (seqnames = c (“chr1”、“chr2”,“chr3”), seqlengths = c (1000、2000、1500), isCircular = c(假的,假的,假),基因组=“BioconductorAlien”)

6读取NarrowPeak文件

NarrowPeak格式通常是用来提供称为峰值信号浓缩池的基础上,规范化的数据。的rtracklayer包的功能,从而使得NarrowPeak文件的加载。

因为的主要功能consensusSeekeR包裹需要2农庄对象,需要一些操作来创建一个农庄区域和一个农庄的峰值。

# # #负载所需的包库(rtracklayer)库(GenomicRanges) # # #演示文件包含在consensusSeekeR包file_narrowPeak < -系统。文件(“extdata”、“A549_FOSL2_ENCSR000BQO_MZW_part_chr_1_and_12。narrowPeak”,包= " consensusSeekeR”) # # #的额外信息列在指定的文件需要# # # extraCols < - c (signalValue =“数值”,pValue =“数值”,qValue =“数值”,峰=“整数”)# # #为地区地区创建基因组范围< -进口(file_narrowPeak格式=“床”,extraCols = extraCols) # # #创建基因组范围的峰的峰值范围(山峰)< < -区域- IRanges(开始=(启动(地区)+区域峰值美元),宽度=代表(1,长度(地区)峰值美元))# # #第一行每个农庄对象头(地区,n = 2) # #农庄对象2和6元数据列:# # seqnames范围链| # # < Rle > < IRanges > < Rle > | # # [1] chr1 (846589、846847) * | # # [2] chr1(856004、856159) * | # #名得分# # <人物> <数字> # #[1]的峰值/ Hosa_A549_FOSL2_ENCSR000BQO_ENCFF000MZW_peak_2 57 # #[2]峰值/ Hosa_A549_FOSL2_ENCSR000BQO_ENCFF000MZW_peak_3 43 # # signalValue pValue qValue峰值# # <数字> <数字> <数字> <整数> # # [1]# # [2]98 5.59984 8.75159 5.77648 5.16770 7.21902 4.33609 108 # # - - - - - - - # # seqinfo: 2因基因组序列;没有seqlengths头(山峰,n = 2) # #农庄对象2和6元数据列:# # seqnames范围链| # # < Rle > < IRanges > < Rle > | # # [1] chr1 (846687、846687) * | # # [2] chr1(856112、856112) * | # #名得分# # <人物> <数字> # #[1]的峰值/ Hosa_A549_FOSL2_ENCSR000BQO_ENCFF000MZW_peak_2 57 # #[2]峰值/ Hosa_A549_FOSL2_ENCSR000BQO_ENCFF000MZW_peak_3 43 # # signalValue pValue qValue峰值# # <数字> <数字> <数字> <整数> # # [1]5.59984 8.75159 5.77648 98 # # [2]5.16770 7.21902 4.33609 108 # # - - - - - - - # # seqinfo: 2因基因组序列;没有seqlengths

一个更简单的方式是使用readNarrowPeakFile的函数consensusSeekeR生成的山峰和narrowPeak包农庄。

库(consensusSeekeR) # # #演示文件包含在consensusSeekeR包file_narrowPeak < -系统。文件(“extdata”、“A549_FOSL2_ENCSR000BQO_MZW_part_chr_1_and_12。narrowPeak”,包= " consensusSeekeR ") # # #创建基因组范围的区域和山峰结果<——readNarrowPeakFile (file_narrowPeak extractRegions = TRUE, extractPeaks = TRUE) # # #第一行每个农庄对象头(结果narrowPeak美元,n = 2) # #农庄对象2和6元数据列:# # seqnames范围链| # # < Rle > < IRanges > < Rle > | # # [1] chr1 (846589、846847) * | # # [2] chr1(856004、856159) * | # #名得分# # <人物> <数字> # #[1]的峰值/ Hosa_A549_FOSL2_ENCSR000BQO_ENCFF000MZW_peak_2 57 # #[2]峰值/ Hosa_A549_FOSL2_ENCSR000BQO_ENCFF000MZW_peak_3 43 # # signalValue pValue qValue峰值# # <数字> <数字> <数字> <整数> # # [1]# # [2]98 5.59984 8.75159 5.77648 5.16770 7.21902 4.33609 108 # # - - - - - - - # # seqinfo: 2因基因组序列;没有seqlengths头(结果美元高峰,n = 2) # #农庄对象2和6元数据列:# # seqnames范围链| # # < Rle > < IRanges > < Rle > | # # [1] chr1 (846687、846687) * | # # [2] chr1(856112、856112) * | # #名得分# # <人物> <数字> # #[1]的峰值/ Hosa_A549_FOSL2_ENCSR000BQO_ENCFF000MZW_peak_2 57 # #[2]峰值/ Hosa_A549_FOSL2_ENCSR000BQO_ENCFF000MZW_peak_3 43 # # signalValue pValue qValue峰值# # <数字> <数字> <数字> <整数> # # [1]5.59984 8.75159 5.77648 98 # # [2]5.16770 7.21902 4.33609 108 # # - - - - - - - # # seqinfo: 2因基因组序列;没有seqlengths

7案例研究:核小体定位

全球基因表达模式是建立和维护由转录因子的共同行动(TFs)和蛋白质构成染色质。核小体是染色质的主要结构部件,它由147个基点octameric组蛋白核心封装的DNA和连接到邻国的大约10 - 80 pbs链接器的DNA(科恩伯格和Lorch 1999)。核小体入住率和定位一直是动态的。对表达式,它也有一个重大影响监管和真核基因的进化(2015年江、张、张)。

7.1核小体定位的结果不同的软件进行比较

随着下一代测序技术的发展,核小体定位使用MNase-Seq数据或MNase——或者用——ChIP-Seq数据结合单头或paired-end测序已经进化为流行的技术。软件如萍(吸引et al . 2013年)和正常(Polishko et al . 2012年),生成输出包含预测核小体的位置,它是一个碱基对参考基因组上的位置。这个职位代表预测核小体的中心。一系列的\下午(\ \)73个基点通常叠加预测核小体repesent核小体占用。

首先,consensusSeekeR必须加载方案。

库(consensusSeekeR)

的数据集,包括在consensusSeekeR包,必须加载。包括使用syntethic读取结果分布的方差的正态分布后20从三个不同的核小体定位软件:平(吸引et al . 2013年),正常(Polishko et al . 2012年)和NucPosSimulator(Schopflin et al . 2013年)。基因组范围已经得到增加\下午(\ \)检测到73个基点的位置。

# # #加载数据集从正常数据(NOrMAL_nucleosome_positions);数据(NOrMAL_nucleosome_ranges) # # #从平数据加载数据集(PING_nucleosome_positions);数据(PING_nucleosome_ranges) # # #从NucPosSimulator数据加载数据集(NucPosSimulator_nucleosome_positions);数据(NucPosSimulator_nucleosome_ranges)

位置和范围的数据集来自同一个软件,的名字字段是成对的,确保每个职位可以联系到它的范围。元数据字段的名字所有数据必须是唯一的,每个特性。

# # #位置数据集有一个等价的元数据中的每个条目# # #“名称”进入范围数据集的头(NOrMAL_nucleosome_positions, n = 2) # #农庄与列2和1元数据对象:# # seqnames范围链|名称# # < Rle > < IRanges > < Rle > | <因素> # #正常chr1(10240、10240) + |第一# #正常chr1 (10409、10409) + | no2 # # - - - - - - - # # seqinfo: 1从一个未指明的基因组序列;没有seqlengths头(NOrMAL_nucleosome_ranges, n = 2) # #警告如果(is.list(值))值< - .resolveClassList(价值,# #,:关闭未使用的连接6 (/ tmp / # # Rtmp4T1YG9 / Rinst52c35a753355 / consensusSeekeR / extdata / # # A549_FOSL2_ENCSR000BQO_MZW_part_chr_1_and_12.narrowPeak) # #农庄与列2和1元数据对象:# # seqnames范围链|名称# # < Rle > < IRanges > < Rle > | <因素> # #正常chr1(10167、10313) + |第一# #正常chr1 (10336、10482) + | no2 # # - - - - - - - # # seqinfo: 1从一个未指明的基因组序列;没有seqlengths

能够识别所有条目从相同的软件,每一行的数据集必须被指定一个名称。位置和范围从同一来源必须分配相同的行名称。在这个为例,数据会被他们的源码软件的名称。

# # #分配软件名称“正常”的名称(NOrMAL_nucleosome_positions) < -代表(“正常”,长度(NOrMAL_nucleosome_positions))的名字(NOrMAL_nucleosome_ranges) < -代表(“正常”,长度(NOrMAL_nucleosome_ranges)) # # #分配实验名称“PING”名称(PING_nucleosome_positions) < -代表(“平”,长度(PING_nucleosome_positions))的名字(PING_nucleosome_ranges) < -代表(“平”,长度(PING_nucleosome_ranges)) # # #分配实验名称“NucPosSimulator”名称(NucPosSimulator_nucleosome_positions) < -代表(“NucPosSimulator”,长度(NucPosSimulator_nucleosome_positions))的名字(NucPosSimulator_nucleosome_ranges) < - - - - - -代表(“NucPosSimulator”,长度(NucPosSimulator_nucleosome_ranges)) # # #行名称是独一无二的每个软件的头(NOrMAL_nucleosome_positions, n = 2) # #农庄与列2和1元数据对象:# # seqnames范围链|名称# # < Rle > < IRanges > < Rle > | <因素> # #正常chr1(10240、10240) + |第一# #正常chr1 (10409、10409) + | no2 # # - - - - - - - # # seqinfo: 1从一个未指明的基因组序列;没有seqlengths头(PING_nucleosome_positions, n = 2) # #农庄与列2和1元数据对象:# # seqnames范围链|名称# # < Rle > < IRanges > < Rle > | <因素> # #平chr1 (10075、10075) + | p1 # #平chr1 (10241、10241) + | p2 # # - - - - - - - # # seqinfo: 1从一个未指明的基因组序列;没有seqlengths头(NucPosSimulator_nucleosome_positions, n = 2) # #农庄与列2和1元数据对象:# # seqnames范围链|名称# # < Rle > < IRanges > < Rle > | <因素> # # NucPosSimulator chr1 (10075、10075) + | nu1 # # NucPosSimulator chr1 (10241、10241) + | nu2 # # - - - - - - - # # seqinfo: 1从一个未指明的基因组序列;没有seqlengths

染色体的共识地区1只计算一个defaut地区50基地双(2 *的大小extendingSize)区域扩展到包括所有的核小体区域(expandToFitPeakRegion=真正的和shrinkToFitPeakRegion=真正的)。被保留的共识,核小体从至少2软件必须出现在该地区(minNbrExp=2)。。

# # #只choromsome 1是分析chrList < - Seqinfo (“chr1”, 135534747, NA) # # #里面找到共识地区与复制结果< - findConsensusPeakRegions (narrowPeaks = c (NOrMAL_nucleosome_ranges, PING_nucleosome_ranges NucPosSimulator_nucleosome_ranges),峰值= c (NOrMAL_nucleosome_positions, PING_nucleosome_positions NucPosSimulator_nucleosome_positions) chrInfo = chrList extendingSize = 25日expandToFitPeakRegion = TRUE, shrinkToFitPeakRegion = TRUE, minNbrExp = 2, nbrThreads = 1)

的输出findConsensusPeakRegions函数是一个列表,它包含一个对象调用和一个对象consensusRanges。的对象调用包含匹配调用的对象consensusRanges是一个农庄包含共识的地区。

# # #打印电话结果叫# #美元findConsensusPeakRegions (narrowPeaks = c (NOrMAL_nucleosome_ranges, # # PING_nucleosome_ranges NucPosSimulator_nucleosome_ranges), # #山峰= c (NOrMAL_nucleosome_positions PING_nucleosome_positions, # # NucPosSimulator_nucleosome_positions) chrInfo = chrList, # # extendingSize = 25日expandToFitPeakRegion = TRUE, shrinkToFitPeakRegion = TRUE, # # minNbrExp = 2, nbrThreads = 1) # # #打印3首先共识区域负责人(结果consensusRanges美元,n = 3) # #农庄与3和0元数据对象列:链# # # # seqnames范围< Rle > < IRanges > < Rle > # # [1] chr1 (10002、10148) * # # [2] chr1 (10167、10314) * # # [3] chr1 (10334、10482) * # # - - - - - - - # # seqinfo: 1从一个未指明的基因组序列;没有seqlengths

总共27个地区已发现共识。地区为例的共识(深蓝色)是使用综合基因组浏览器所示(罗宾逊et al . 2011年):

alt文本

8案例研究:ChIP-Seq数据

下一代DNA测序加上染色质免疫沉淀反应能力(ChIP-seq)已经改变了审讯组蛋白修饰的基因组景观,在活细胞转录辅因子和转录因子绑定(Mundade et al . 2014年)。财团,如编码已经开发和不断更新的标准和指导方针ChIP-Seq实验吗(2012年美国Landt编著和Marinov)。

ChIP-seq结合染色质免疫沉淀反应(芯片)和大规模并行DNA测序。获得的序列读取第一个映射到参考基因组中使用的生物实验。然后结合位点检测使用软件专业在转录因子结合位点识别,如MACS2(y . Zhang et al . 2008年)和PeakRanger(冯、格罗斯曼和斯坦2011)。山峰被定义为一个碱基对的位置而统计丰富地区被定义为基因组范围。

8.1ChIP-Seq复制从一个实验

百科全书的DNA元素(编码)协会是一个国际合作的研究团体由国家人类基因组研究所资助。的编码网站门户提供访问数据编码生成的财团。收集的数据量是广泛的。此外,对于一些实验中,多个ChIP-Seq复制通常是可用的。

软件用于识别转录因子结合位点通常产生一个峰值位置为每个绑定的网站和一个丰富的地区。然而,很可能确切的峰值位置是完全相同的复制。更,尚未有一个共识如何分析multiple-replicate ChIP-seq样本杨(y . et al . 2014年)。

的consensusSeekeR包可以用来识别共识为两个或两个以上的地区复制ChIP-Seq样本。共识地区被发现通过使用峰值位置。

CTCF的转录因子结合转录因子分析和2复制在BAM文件格式编码网站(dcc: ENCFF000MYJ和ENCFF000MYN)。NarrowPeaks使用MACS2生成(y . Zhang et al . 2008年)使用默认参数和核反应能量设置为0.05。

为了简化这个演示,只有一部分的基因组hg19 chr1:246000000 - 249250621和chr10:10000000 - 12500000,一直保留在数据集。

首先,consensusSeekeR必须加载方案。

库(consensusSeekeR)

的数据集,包括在consensusSeekeR包,必须加载。

# # #加载数据集数据(A549_CTCF_MYN_NarrowPeaks_partial);数据(A549_CTCF_MYN_Peaks_partial)数据(A549_CTCF_MYJ_NarrowPeaks_partial);数据(A549_CTCF_MYJ_Peaks_partial)

能够识别相同的数据来源,数据集的每一行必须分配一个名称来源。注意,NarrowPeak和峰数据集来自同一来源必须分配相同的名字。在这个为例,数据集复制相同的实验。所以,名字“rep01”和“rep02”会分配给每个数据集。

# # #分配实验名称“rep01”第一个复制名称(A549_CTCF_MYJ_NarrowPeaks_partial) < -代表(“rep01”,长度(A549_CTCF_MYJ_NarrowPeaks_partial))的名字(A549_CTCF_MYJ_Peaks_partial) < -代表(“rep01”,长度(A549_CTCF_MYJ_Peaks_partial)) # # #分配实验名称“rep02”第二复制名称(A549_CTCF_MYN_NarrowPeaks_partial) < -代表(“rep02”,长度(A549_CTCF_MYN_NarrowPeaks_partial))的名字(A549_CTCF_MYN_Peaks_partial) < -代表(“rep02”,长度(A549_CTCF_MYN_Peaks_partial))

染色体的共识地区10只计算defaut区域大小200基地双(2 *extendingSize)区域扩展到包括所有山峰区域(expandToFitPeakRegion=真正的和shrinkToFitPeakRegion=真正的)。从复制必须出现峰值withinin地区地区被保留为一个共识。

# # #只choromsome 10将是分析chrList < - Seqinfo (“chr10”, 135534747, NA) # # #里面找到共识地区与复制结果< - findConsensusPeakRegions (narrowPeaks = c (A549_CTCF_MYJ_NarrowPeaks_partial A549_CTCF_MYN_NarrowPeaks_partial),峰值= c (A549_CTCF_MYJ_Peaks_partial A549_CTCF_MYN_Peaks_partial) chrInfo = chrList extendingSize = 100, expandToFitPeakRegion = TRUE, shrinkToFitPeakRegion = TRUE, minNbrExp = 2, nbrThreads = 1)

的输出findConsensusPeakRegions函数是一个列表,它包含一个对象调用和一个对象conesensusRanges。的对象调用包含匹配调用的对象conesensusRanges是一个农庄包含共识的地区。

# # #打印电话结果叫# #美元findConsensusPeakRegions (narrowPeaks = c (A549_CTCF_MYJ_NarrowPeaks_partial # # A549_CTCF_MYN_NarrowPeaks_partial),峰值= c (A549_CTCF_MYJ_Peaks_partial # # A549_CTCF_MYN_Peaks_partial), chrInfo = chrList extendingSize = 100, # # expandToFitPeakRegion = TRUE, shrinkToFitPeakRegion = TRUE, # # minNbrExp = 2, nbrThreads = 1) # # #打印3首先共识区域负责人(结果consensusRanges美元,n = 3) # #农庄与3和0元数据对象列:链# # # # seqnames范围< Rle > < IRanges > < Rle > # # [1] chr10 (11078504、11078504) * # # [2] chr10 (11312608、11312608) * # # [3] chr10 (11466554、11466554) * # # - - - - - - - # # seqinfo: 1从一个未指明的基因组序列;没有seqlengths

总共18共识地区被发现。共识区域(绿色)的一个例子是使用综合基因组浏览器所示(罗宾逊et al . 2011年):

alt文本

8.2ChIP-Seq来自多个实验的数据

的consensusSeekeR包还可以用于确定两个或多个ChIP-Seq共识地区多个样本实验。峰值位置的特征用于识别一致的区域。

NR3C1转录因子的转录因子结合分析了在多个实验。对于每一个实验,分析了复制使用不能再现的发现率的方法(李et al . 2011年)。结果在床上narrowPeak格式是可用的编码网站(dcc: ENCFF002CFQ ENCFF002CFR和ENCFF002CFS)(邓纳姆et al . 2012年)。

为了简化这个演示,只有一部分的基因组hg19 chr2:40000000 - 50000000和chr3:10000000 - 13000000,一直保留在数据集。

首先,consensusSeekeR必须加载方案。

库(consensusSeekeR)

的数据集,包括在consensusSeekeR包,必须加载。

# # #加载数据集数据(A549_NR3C1_CFQ_NarrowPeaks_partial);数据(A549_NR3C1_CFQ_Peaks_partial)数据(A549_NR3C1_CFR_NarrowPeaks_partial);数据(A549_NR3C1_CFR_Peaks_partial)数据(A549_NR3C1_CFS_NarrowPeaks_partial);数据(A549_NR3C1_CFS_Peaks_partial)

能够识别相同的数据来源,数据集的每一行必须指定一个实验名称。注意,NarrowPeak和峰值数据集来自同一来源必须分配相同的名字。在这个为例,数据集来自不同的实验相同的转录因子。所以,每个实验的短名称“ENCFF002CFQ”、“ENCFF002CFR”和“ENCFF002CFS”将是分配给每个数据集。

# # #分配实验名称“ENCFF002CFQ”第一个实验名称(A549_NR3C1_CFQ_NarrowPeaks_partial) < -代表(“ENCFF002CFQ”,长度(A549_NR3C1_CFQ_NarrowPeaks_partial))的名字(A549_NR3C1_CFQ_Peaks_partial) < -代表(“ENCFF002CFQ”,长度(A549_NR3C1_CFQ_Peaks_partial)) # # #分配实验名称“ENCFF002CFQ”第二个实验名称(A549_NR3C1_CFR_NarrowPeaks_partial) < -代表(“ENCFF002CFR”,长度(A549_NR3C1_CFR_NarrowPeaks_partial))的名字(A549_NR3C1_CFR_Peaks_partial) < -代表(“ENCFF002CFR”,长度(A549_NR3C1_CFR_Peaks_partial)) # # #分配实验名称“ENCFF002CFQ”第三个实验名称(A549_NR3C1_CFS_NarrowPeaks_partial) < -代表(“ENCFF002CFS”,长度(A549_NR3C1_CFS_NarrowPeaks_partial))的名字(A549_NR3C1_CFS_Peaks_partial) < -代表(“ENCFF002CFS”,长度(A549_NR3C1_CFS_Peaks_partial))

在编码的床上narrowPeak格式,条目没有特定的元数据字段的名字。所以,能够使用findConsensusPeakRegions函数,具体名称必须手动添加到每个条目。

# # #特定名称的每个条目分配给第一个实验# # # NarrowPeak名称必须符合山峰名称相同的实验A549_NR3C1_CFQ_NarrowPeaks_partial $名< - paste0 (“NR3C1_CFQ_region_”, 1:长度(A549_NR3C1_CFQ_NarrowPeaks_partial)) A549_NR3C1_CFQ_Peaks_partial名称< - paste0美元(“NR3C1_CFQ_region_”, 1:长度(A549_NR3C1_CFQ_NarrowPeaks_partial)) # # #特定名称分配给每个条目的第二个实验# # # NarrowPeak名称必须符合山峰名称相同的实验A549_NR3C1_CFR_NarrowPeaks_partial $名< - paste0 (“NR3C1_CFR_region_”, 1:长度(A549_NR3C1_CFR_NarrowPeaks_partial)) A549_NR3C1_CFR_Peaks_partial名称< - paste0美元(“NR3C1_CFR_region_”, 1:长度(A549_NR3C1_CFR_Peaks_partial)) # # #特定名称分配给每个条目的第三个实验# # # NarrowPeak名称必须符合山峰名称相同的实验A549_NR3C1_CFS_NarrowPeaks_partial $名< - paste0 (“NR3C1_CFS_region_”, 1:长度(A549_NR3C1_CFS_NarrowPeaks_partial)) A549_NR3C1_CFS_Peaks_partial名称< - paste0美元(“NR3C1_CFS_region_”, 1:长度(A549_NR3C1_CFS_Peaks_partial))

染色体的共识地区2只计算defaut区域大小400基地双(2 *extendingSize)区域不扩展到包括所有山峰地区但时缩水超过峰值区域(expandToFitPeakRegion=假和shrinkToFitPeakRegion=真正的)。峰值从2的3实验必须出现在一个地区被保留作为一个共识。

# # #只有choromsome 2是分析chrList < - Seqinfo (“chr2”, 243199373, NA) # # #里面找到共识地区与复制结果< - findConsensusPeakRegions (narrowPeaks = c (A549_NR3C1_CFQ_NarrowPeaks_partial, A549_NR3C1_CFR_NarrowPeaks_partial A549_NR3C1_CFS_NarrowPeaks_partial),峰值= c (A549_NR3C1_CFQ_Peaks_partial, A549_NR3C1_CFR_Peaks_partial A549_NR3C1_CFS_Peaks_partial) chrInfo = chrList extendingSize = 200, expandToFitPeakRegion = FALSE, shrinkToFitPeakRegion = TRUE, minNbrExp = 2, nbrThreads = 1)

的输出findConsensusPeakRegions函数是一个列表,它包含一个对象调用和一个对象consensusRanges。的对象调用包含匹配调用的对象consensusRanges是一个农庄包含共识的地区。

# # #打印电话结果叫# #美元findConsensusPeakRegions (narrowPeaks = c (A549_NR3C1_CFQ_NarrowPeaks_partial, # # A549_NR3C1_CFR_NarrowPeaks_partial A549_NR3C1_CFS_NarrowPeaks_partial), # #山峰= c (A549_NR3C1_CFQ_Peaks_partial A549_NR3C1_CFR_Peaks_partial, # # A549_NR3C1_CFS_Peaks_partial) chrInfo = chrList extendingSize = 200, # # expandToFitPeakRegion = FALSE, shrinkToFitPeakRegion = TRUE, # # minNbrExp = 2, nbrThreads = 1) # # #打印前3个共识区域负责人(结果consensusRanges美元,n = 3) # #农庄与3和0元数据对象列:链# # # # seqnames范围< Rle > < IRanges > < Rle > # # [1] chr2 (42054830、42054830) * # # [2] chr2 (42075261、42075261) * # # [3] chr2 (42153872、42153872) * # # - - - - - - - # # seqinfo: 1从一个未指明的基因组序列;没有seqlengths

总共有99共识地区被发现。共识的区域(绿色)是使用综合基因组浏览器所示(罗宾逊et al . 2011年):

alt文本

9参数

9.1shrinkToFitPeakRegion参数的影响

的shrinkToFitPeakRegion允许调整共识地区符合最小区域包含的特性,当这些值都包含在最初的共识。当extendingSize参数大,效果会很明显在最后的共识。为例,下图显示了同一地区,从NR3C1例子extendingSize200年,当shrinkToFitPeakRegion被设置为真正的(绿色)和假使用综合基因组浏览器(橙色)(罗宾逊et al . 2011年):

alt文本

9.2expandToFitPeakRegion参数的影响

的expandToFitPeakRegion允许调整的地区适合最大的共识包括特性时这些值超出了最初的共识。当extendingSize参数很小,效果会很明显在最后的共识。为例,下图显示了同一地区,与CTCF的例子extendingSize100年,当shrinkToFitPeakRegion被设置为假(橙色)和真正的(绿色)。

$alt文本$

9.3extendingSize参数的影响

的值extendingSize参数会影响最终的共识区域数量。虽然小extendingSize值可以错过一些地区,大extendingSize值可以凝聚共识的地区。测试范围extendingSize参数可以是一个值得考虑的选项。

作为一个例子,共识地区获得的不同的值extendingSize计算。

# # # extendingSize参数设置不同的值大小< - c(1、10、50、100、300、500、750、1000) # # #只chrompsome 10将是分析chrList < - Seqinfo (“chr10”, 135534747, NA) # # #找到共识地区使用所有大小值resultsBySize < -拉普(大小、有趣= function(大小)findConsensusPeakRegions (narrowPeaks = c (A549_CTCF_MYJ_NarrowPeaks_partial A549_CTCF_MYN_NarrowPeaks_partial),峰值= c (A549_CTCF_MYJ_Peaks_partial A549_CTCF_MYN_Peaks_partial) chrInfo = chrList extendingSize =大小,expandToFitPeakRegion = TRUE, shrinkToFitPeakRegion = TRUE, minNbrExp = 2, nbrThreads = 1)) # # #提取共识地区获得的数量为每个extendingSize nbrRegions < - mapp (resultsBySize、有趣=函数(x)返回(长度(x consensusRanges美元)))

可以使用一个图形可视化的变化的共识地区功能的数量extendingSize参数。

图书馆(ggplot2)数据< data.frame (extendingSize =大小,nbrRegions = nbrRegions) ggplot(数据、aes (extendingSize nbrRegions)) + scale_x_log10(“扩大规模”)+ stat_smooth (se = FALSE,方法=“黄土”,大小= 1.4)+ ylab(“共识区域数量”)+ ggtitle (paste0(“的共识地区extendingSize函数”))

alt文本

10并行consensusSeekeR

由于分析基因组的大小,findConsensusPeakRegions函数可以花一段时间来处理。然而,一份工作可以由染色体和并行运行。这种利用多个处理器和减少总执行时间。线程的数量可以设置和使用nbrThreads参数findConsensusPeakRegions函数。

# # #数据加载数据(A549_FOSL2_01_NarrowPeaks_partial);数据(A549_FOSL2_01_Peaks_partial)数据(A549_FOXA1_01_NarrowPeaks_partial);数据(A549_FOXA1_01_Peaks_partial) # # #分配名称“FOSL2”名称(A549_FOSL2_01_NarrowPeaks_partial) < -代表(“FOSL2”,长度(A549_FOSL2_01_NarrowPeaks_partial))的名字(A549_FOSL2_01_Peaks_partial) < -代表(“FOSL2”,长度(A549_FOSL2_01_Peaks_partial)) # # #分配名称“FOXA1”名称(A549_FOXA1_01_NarrowPeaks_partial) < -代表(“FOXA1”,长度(A549_FOXA1_01_NarrowPeaks_partial))的名字(A549_FOXA1_01_Peaks_partial) < -代表(“FOXA1”,长度(A549_FOXA1_01_Peaks_partial)) # # #两条染色体分析chrList < - Seqinfo (paste0(“空空”,c (10)), c (249250621, 135534747), NA) # # #找到共识地区使用2线程结果< - findConsensusPeakRegions (narrowPeaks = c (A549_FOSL2_01_NarrowPeaks_partial A549_FOXA1_01_Peaks_partial),峰值= c (A549_FOSL2_01_Peaks_partial A549_FOXA1_01_NarrowPeaks_partial) chrInfo = chrList extendingSize = 200, minNbrExp = 2, expandToFitPeakRegion = FALSE, shrinkToFitPeakRegion = FALSE, nbrThreads = 4)

11承认

我们感谢Imene Boudaoud晕映上她的建议内容。

12会话信息

这里的输出sessionInfo ()本文档对系统的编译:

# # R版本3.4.0(2017-04-21)# #平台:x86_64-pc-linux-gnu(64位)# #下运行:Ubuntu 16.04.2 LTS # # # #矩阵产品:默认# #布拉斯特区:/home/biocbuild/bbs - 3.5 - bioc / R / lib / libRblas。所以# # LAPACK: /home/biocbuild/bbs - 3.5 - bioc / R / lib / libRlapack。# # # #语言环境:# # [1]LC_CTYPE = en_US。utf - 8 LC_NUMERIC = C # #[3]而= en_US。utf - 8 LC_COLLATE = C # # [5] LC_MONETARY = en_US。utf - 8 LC_MESSAGES = en_US。utf - 8 # # [7] LC_PAPER = en_US。utf - 8 LC_NAME = C # # [9] LC_ADDRESS C = C LC_TELEPHONE = # # [11] LC_MEASUREMENT = en_US。utf - 8 LC_IDENTIFICATION = C附加基本包:# # # # # # [1]stats4并行数据图形grDevices跑龙套数据集# #[8]方法基础# # # #其他附加包:# # [1]rtracklayer_1.36.0 consensusSeekeR_1.4.0 BiocParallel_1.10.0 # # [4] GenomicRanges_1.28.0 GenomeInfoDb_1.12.0 IRanges_2.10.0 # # [7] S4Vectors_0.14.0 BiocGenerics_0.22.0 knitr_1.15.1 # # [10] BiocStyle_2.4.0 # # # #通过加载一个名称空间(而不是附加):# # [1]Rcpp_0.12.10 XVector_0.16.0 # # [3] magrittr_1.5 GenomicAlignments_1.12.0 # # [5] zlibbioc_1.22.0 lattice_0.20-35 # # [7] stringr_1.2.0 tools_3.4.0 # # [9] grid_3.4.0 SummarizedExperiment_1.6.0 # # [11] Biobase_2.36.0 matrixStats_0.52.2 # # [13] htmltools_0.3.5 yaml_2.1.14 # # [15] rprojroot_1.2 digest_0.6.12 # # [17] Matrix_1.2-9 GenomeInfoDbData_0.99.0 # # [19] bitops_1.0-6 rcurl_1.95 - 4.8 # # [21] evaluate_0.10 rmarkdown_1.4 # # [23] DelayedArray_0.2.0 stringi_1.1.5 # # [25] compiler_3.4.0 Rsamtools_1.28.0 # # [27] Biostrings_2.44.0 backports_1.0.5 # # [29] xml_3.98 - 1.6

引用

邓纳姆,伊恩,Anshul Kundaje雪莱f . Aldred帕特里克·j·柯林斯凯莉·a·戴维斯,弗朗西斯·多伊尔,Charles b .爱泼斯坦,等。2012。“一个集成的百科全书在人类基因组中DNA的元素。”自然489 (7414):57 - 74。doi:10.1038 / nature11247。

冯,鑫,罗伯特•格罗斯曼和林肯斯坦》2011。“PeakRanger:云计算高峰ChIP-seq数据调用者。”BMC生物信息学12(1)。生物医学中心有限公司:139。doi:10.1186 / 1471-2105-12-139。

江,Jiming,张道,张。第2015。“全基因组核小体入住率和定位及其对基因表达的影响和在植物进化。”植物生理学,pp.00125.2015。doi:10.1104 / pp.15.00125。

科恩伯格,罗杰·D。,和Yahli Lorch. 1999. “Twenty-five years of the nucleosome, fundamental particle of the eukaryote chromosome.”细胞98 (3):285 - 94。doi:10.1016 / s0092 - 8674 (00) 81958 - 3。

Landt编著,Sg,门将Marinov。2012。“ChIP-seq指南和实践的编码和modENCODE财团。”基因组…,没有。公园2009:1813 - 31所示。doi:10.1101 / gr.136184.111。

劳伦斯迈克尔沃尔夫冈•休伯Herve页,帕特里克·Aboyoun马克•卡尔森(Robert绅士,马丁·t·摩根和文森特·j·凯里。2013。“软件计算和注释基因组范围。”PLoS计算生物学9 (8)。doi:10.1371 / journal.pcbi.1003118。

李Qunhua,詹姆斯·b·布朗,海燕黄,Peter j . Bickel》2011。“测量高通量实验的重现性。”应用统计年鉴5 (3):1752 - 79。doi:10.1214 / 11-aoas466。

Rasika Mundade, Hatice Gulcin沉思,汉族,Lakshmi您正在和陆道。2014。ChIP-seq”作用的转录因子结合位点的发现,不同的基因调控机制,表观遗传标记及超越。”细胞周期13 (18):2847 - 52。doi:10.4161 / 15384101.2014.949201。

安东,Polishko Nadia桥,Karine g . Le罗氏制药,斯特凡诺Lonardi》2012。“正常:准确的核小体定位使用修改后的高斯混合模型。”生物信息学28日(12):242 - 49。doi:10.1093 /生物信息学/ bts206。

罗宾逊,詹姆斯·T。,Thorvaldsdóttir Helga, Wendy Winckler, Mitchell Guttman, Eric S. Lander, Gad Getz, and Jill P. Mesirov. 2011. “Integrative genomics viewer.”自然生物技术29(1):24 - 26日。doi:10.1038 / nbt0111-24。

Schopflin,罗伯特,弗拉基米尔·b·Teif奥利弗·穆勒Christin温伯格Karsten Rippe, Gero Wedemann。2013。“核小体的位置分布建模实验核小体定位地图。”生物信息学29日(19):2380 - 6。doi:10.1093 /生物信息学/ btt404。

哇,Sangsoon Xuekui张,升井Sauteraud,弗朗索瓦·罗伯特,和拉斐尔Gottardo》2013。“平2.0:一个R / Bioconductor包核小体定位使用新一代测序数据。”生物信息学29日(16):2049 - 50。doi:10.1093 /生物信息学/ btt348。

杨,原来,贾斯汀恐惧,Jianhong胡,Irina Haecker, Lei,罗尔夫·雷恩,大卫·布鲁姆和劳伦·麦金太尔。2014年。“利用生物复制改善分析ChIP-seq实验。”计算和结构生物技术杂志9:e201401002。doi:10.5936 / csbj.201401002。

张,勇,刘涛Clifford Meyer,杰罗姆Eeckhoute,大卫·约翰逊,布拉德利E伯恩斯坦,乍得Nusbaum,等。2008。“基于模型分析的ChIP-Seq (mac)。”基因组生物学9 (9):R137。doi:10.1186 / gb - 2008 - 9 - 9 - r137。

共识的检测区域内的一组实验使用基因位置和基因组范围

阿斯特丽德Deschenes,法比克劳德无痛分娩法,帕斯卡Belleau Arnaud所有权

2017年4月24日

内容

1许可和引用

2介绍

3consensusSeekeR包

4加载consensusSeekeR包

5输入

5.1位置和范围

5.2染色体的信息

6读取NarrowPeak文件

7案例研究:核小体定位

7.1核小体定位的结果不同的软件进行比较

8案例研究:ChIP-Seq数据

8.1ChIP-Seq复制从一个实验

8.2ChIP-Seq来自多个实验的数据

9参数

9.1shrinkToFitPeakRegion参数的影响

9.2expandToFitPeakRegion参数的影响

9.3extendingSize参数的影响

10并行consensusSeekeR

11承认

12会话信息

引用