包版本:ChIPpeakAnno 3.8.9

内容

在本指南中,我们说明了这两种常见的下游分析工作流ChIP-seq实验,一个是比较和结合峰单一转录因子(TF)和复制,比较绑定配置文件的,另一个是与多个TFs ChIP-seq实验。

1工作流ChIP-seq实验与复制单个转录因子

这个工作流显示如何将床/人造石铺地面文件农庄,发现两组峰之间重叠峰,想象常见的数量和具体的山峰与文氏图。

1。1从复制进口数据和获取重叠峰

的输入ChIPpeakAnno1一列称为峰值识别从ChIP-seq实验或任何其他实验,产生一组染色体的坐标。尽管山峰被表示为农庄ChIPpeakAnno,其他常见的格式(如峰值床上,人造石铺地面和mac可以使用一个转换很容易转化为农庄toGRanges方法。如何使用此方法的详细信息,请输入?toGRanges

下面的例子说明了这种方法的使用将床和人造石铺地面文件农庄,添加元数据及峰重叠农庄组织使用的功能addMetadata使用函数,想象重叠makeVennDiagram

库(ChIPpeakAnno)床< -系统。文件(“extdata”、“MACS_output。床”,包= " ChIPpeakAnno”) gr1一起< - toGRanges(床,格式=“床”,头= FALSE) # #一个也可以尝试从rtracklayer进口人造石铺地面< -系统。文件(“extdata”、“GFF_peaks。人造石铺地面”,包= " ChIPpeakAnno”) gr2 <——toGRanges(人造石铺地面,格式=“人造石铺地面”,标题= FALSE,跳过= 3)# #必须保持类gr1一起分美元完全一样,即,数字。gr2得分< - as.numeric (gr2得分美元)ol < - findOverlapsOfPeaks (gr1一起,gr2) # #添加元数据(平均分数)的重叠峰ol < - addMetadata (ol, colNames =“分数”,有趣=意味着)ol peaklist美元[[“gr1一起/ / / gr2”]] [1:2]
# #农庄对象与范围和2元数据列:# # seqnames范围链| # # < Rle > < IRanges > < Rle > | # # [1] chr1 (713791、715578) * | # # [2] chr1 (724851、727191) * | # # peakNames得分# # < CharacterList > <数字> # # [1]gr1__MACS_peak_13, gr2__region_0, gr2__region_1 850.2033 # # [2] gr2__region_2, gr1__MACS_peak_14 29.1700 # # - - - - - - - # # seqinfo: 1从一个未指明的基因组序列;没有seqlengths
makeVennDiagram (ol)

图1所示。维恩图重叠的复制实验

# # $ p。值# # gr1一起gr2 pval # # [1] vennCounts美元1 1 0 # # # # # # gr1一起gr2计数# # [1]0 0 0 # # [2]0 1 61 # # [3]1 0 62 # # [4]1 1 166 # # attr(,“类”)# # [1]“vennCounts”

1。2准备注释数据

注释数据应该农庄的一个对象。进口山峰一样,我们使用的方法toGRanges可以返回一个对象的农庄,代表注释数据。一个注释数据不仅是由床上,人造石铺地面或用户定义的可读的文本文件,但是也EnsDb或TxDb对象,通过调用toGRanges方法。请输入?toGRanges为更多的信息。

库(EnsDb.Hsapiens.v75) # # # # (hg19)创建注释文件从EnsDb或TxDb annoData < - toGRanges (EnsDb.Hsapiens。v75特性=“基因”)annoData [1:2]
1与2 # #农庄对象范围和元数据列:# # seqnames范围链| gene_name # # < Rle > < IRanges > < Rle > | <人物> # # ENSG00000223972 chr1 (11869、14412) + | DDX11L1 # # ENSG00000227232 chr1 (14363、29806) - | WASH7P # # - - - - - - - # # seqinfo: 273年从GRCh37基因组序列

1。3可视化结合位点分布相对于功能

发现重叠峰之后,重叠峰的距离分布的转录起始点的最近的特性如(TSS)可以绘制binOverFeature函数。这里的示例代码块周围的山峰TSS的分布。

重叠< - ol $ peaklist [[“gr1一起/ / / gr2”]] binOverFeature(重叠,annotationData = annoData半径= 5000,nbins = 20,有趣=长度,errFun = 0, ylab =“计数”,主要=“聚合峰值分布的数字TSS”)

图2。分配记录周围的山峰开始网站。

此外,assignChromosomeRegion可以用来总结峰值的分布在不同类型的特性,比如外显子,内含子,增强剂,近端启动子,5 ' UTR和3’UTR。这个分布可以概括中心峰值或核苷酸为中心的视图使用函数assignChromosomeRegion。请注意,一个峰值可能跨越多个类型的特性,导致了大量的注释功能大于输入峰值的总数。峰为中心的视图,优先将决定注释秩序当山峰跨越多个类型的特性。

库(TxDb.Hsapiens.UCSC.hg19.knownGene) aCR < -assignChromosomeRegion(重叠,nucleotideLevel = FALSE,优先级= c(“促进者”、“immediateDownstream”,“fiveUTRs”、“threeUTRs”,外显子,内含子),TxDb = TxDb.Hsapiens.UCSC.hg19.knownGene) barplot (aCR美元比例,拉斯维加斯= 3)

图3。峰值分布在不同的基因特性。

1。4注释的山峰

从聚合峰值的分布如图所示数字TSS和峰值的分布在不同的染色体区域,大部分的定位TSS达到顶峰。因此,它是合理的使用annotatePeakInBatchannoPeaks注释Hg19基因的启动子区域的峰值。与bindingRegion发起人可以指定。下面的例子,启动子区域被定义为从500 2000年上游和下游TSS (bindingRegion = c (-2000、500))。

重叠。庵野< - annotatePeakInBatch(重叠,AnnotationData = annoData输出=“nearestBiDirectionalPromoters bindingRegion = c(-2000、500))图书馆(org.Hs.eg.db)重叠。庵野< - addGeneIDs(重叠。org.Hs.eg庵。”db”, IDs2Add = " entrez_id”)负责人(overlaps.anno)
# #农庄与6和11元数据对象列:# # seqnames范围链| # # < Rle > < IRanges > < Rle > | # # X1 chr1 (713791、715578) * | # # X1 chr1 (713791、715578) * | # # X3 chr1 (839467、840090) * | # # X4 chr1 (856361、856999) * | # # X5 chr1 (859315、860144) * | # # X10 chr1 (901118、902861) * | # # peakNames分数峰值# # < CharacterList > <数字> <人物> # # X1 gr1__MACS_peak_13, gr2__region_0, gr2__region_1 850.2033 X1 # # X1 gr1__MACS_peak_13 gr2__region_0, gr2__region_1 850.2033 X1 # # X3 gr1__MACS_peak_16 gr2__region_3 73.1200 X3 # # X4 gr1__MACS_peak_17 gr2__region_4 54.6900 X4 # # X5 gr2__region_5 gr1__MACS_peak_18 81.4850 X5 # # X10 gr2__region_11 gr1__MACS_peak_23 119.9100 X10 # #功能特性。范围的功能。链距离# # <人物> < IRanges > < Rle > <整数> # # X1 ENSG00000228327 (700237、714006) - 0 # # X1 ENSG00000237491 (714150、745440) + 0 # # X3 ENSG00000272438 (840214、851356) + 123 # # X4 ENSG00000223764 (852245、856396) - 0 # # X5 ENSG00000187634 (860260、879955) + 115 # # X10 ENSG00000187583 (901877、911245) + 0 # # insideFeature distanceToSite gene_name entrez_id # # <因素> <整数> <人物> <人物> # # X1 overlapStart 0 rp11 - 206 l10.2 < NA > # # X1 overlapStart 0 rp11 - 206 l10.9 < NA > # # X3上游123 RP11-54O7.16 < NA > # # 0 X4 overlapStart RP11-54O7.3 100130417 # # X5上游115 SAMD11 148398 # # X10 overlapStart 0 PLEKHN1 84069 # # - - - - - - - # # seqinfo: 1从一个未指明的基因组序列;没有seqlengths
write.csv (as.data.frame (unname (overlaps.anno)),“anno.csv”)

常见的山峰周围的分布特性可以用一个饼图可视化。

pie1(表(overlaps.anno insideFeature美元))

图4。饼图共同山峰周围的分布特性。

1。5获得丰富的条件和途径

下面的例子展示了如何使用getEnrichedGO获得丰富的列表与注释的山峰。通路分析,请使用功能getEnrichedPATHreactome和KEGG数据库。请注意,默认情况下feature_id_type设置为“ensembl_gene_id”。如果您使用的是TxDb作为注释数据,请将其设置为“entrez_id”。

在< - getEnrichedGO(重叠。伊斯兰教纪元,orgAnn = " org.Hs.eg。db”, maxP =。05年,minGOterm = 10, multiAdjMethod =“黑洞”,浓缩= TRUE)头([[“英国石油公司”]][- c (3, 10)))
# # [1]。id。词本体# # [4]pvalue计数。InDataset计数。InGenome # # [7] totaltermInDataset totaltermInGenome EntrezID # # > < 0行(或0-length row.names)
库(reactome.db)路径< - getEnrichedPATH(重叠。org.Hs.eg庵。”db”、“reactome。db”, maxP =。05) head(path)
# #路径。id EntrezID计数。InDataset计数。InGenome pvalue # # 1 114604 5590 1 28 0.04646066 # # 2 1296041 2782 1 25 0.04158686 # # 3 1296059 2782 1 25 0.04158686 # # 4 1296059 54998 3 283 0.01261485 # # 5 1852241 55052 3 283 0.01261485 # # 6 1852241 261734 3 283 0.01261485 # # totaltermInDataset totaltermInGenome # # 111 # 65398 # 65398 # 111 # 65398 # 111 # 65398 # 111 # 65398 # 111 # 65398 # 111 # # # 1智人:道路GPVI-mediated激活级联# # 2智人:激活G蛋白封闭的钾离子通道# # 3智人:G蛋白封闭的钾离子通道# # 4智人:细胞器生物起源和维护# # 5智人:细胞器生物起源和维护# # 6智人:细胞器生物起源和维护

1。6获得山峰周围的序列

这是一个例子的序列峰值+ 20英国石油公司上游和下游的PCR验证或主题的发现。

库(BSgenome.Hsapiens.UCSC.hg19) seq < - getAllPeakSequence(重叠,上游= 20,下游= 20,基因组= Hsapiens) write2FASTA (seq,“test.fa”)

1。7输出一个总结山峰的共识

这是一个例子的z得分为短的寡核苷酸3

# #的总结短的寡核苷酸频率< - oligoFrequency (Hsapiens chr1美元,MarkovOrder = 3)操作系统< - oligoSummary (seq, oligoLength = 6, MarkovOrder = 3, quickMotif = FALSE,频率=频率)# #情节zscore < -排序结果(os zscore美元)h < -嘘(zscore休息= 100,xlim = c(-50年,50),主要=“直方图的z分数”)文本(zscore[长度(zscore)],马克斯(h数美元)/ 10,标签=名字(zscore[长度(zscore)]), adj = 1)

图5。个六的z分数的柱状图

# #我们也可以尝试seq.sim仿真数据。主题< -列表(c (“t”、“g”、“c”,“一个”,“t”,“g”), c (“g”、“c”、“a”,“t”,“g”、“c”)) set.seed (1) seq。sim < -酸式焦磷酸钠(样本(c(2, 1, 0), 1000年,取代= TRUE,概率= c (0.07, 0.1, 0.83), s (x){函数< -样本(c (“a”、“c”、“g”、“t”),样品(100:1000,1),取代= TRUE)如果(x > 0) {si < - sample.int(长度(s), 1)如果(si >长度(s) 6)如果< -长度(s) 6 s (si (si + 5)): < - seq.sim。主题[[x]]}粘贴(年代,崩溃= " ")}< oligoSummary (seq)操作系统。sim oligoLength = 6, MarkovOrder = 3, quickMotif = TRUE) zscore < -排序(os zscore美元,减少= TRUE) h < -嘘(zscore,减免= 100,主要=“z分数的柱状图”)文本(zscore[1:2],代表(5,2),标签=名字(zscore [1:2]), adj = 0, srt = 90)

图6。仿真数据的直方图的z分数

# #生成图案库(motifStack)烤瓷< mapp(函数(。避署,id)新(烤瓷,垫=。避署,name =粘贴(“示例主题”,id)),操作系统主题美元,1:长度(操作系统主题美元))motifStack (pfm [[1]])

图7。图案的仿真数据

1。8发现和双向启动子峰

双向启动子是两个相邻的DNA区域位于TSS基因转录相反的方向和经常重新共享启动子区域5。这里有一个例子来找到双向启动子附近的山峰。

bdp < - peaksNearBDP(重叠、annoData maxgap = 5000) c (bdp percentPeaksWithBDP美元,bdp $ n。山峰,bdp n.peaksWithBDP美元)
# # [1]0.1084337 166.0000000 18.0000000
bdp peaksWithBDP美元[1:2]
# # GRangesList对象长度2:# # # # 1美元农庄对象2范围和11元数据列:# # seqnames范围链| # # < Rle > < IRanges > < Rle > | # # X1 chr1 (713791、715578) * | # # X1 chr1 (713791、715578) * | # # peakNames得分bdp_idx # # < CharacterList > <数字> <整数> # # X1 gr1__MACS_peak_13, gr2__region_0, gr2__region_1 850.2033 - 1 # # X1 gr1__MACS_peak_13, gr2__region_0 gr2__region_1 850.2033 1 # #峰值特征特性。范围的功能。链距离# # <人物> <人物> < IRanges > < Rle > <整数> # # X1 X1 ENSG00000228327 (700237、714006) - 0 # # X1 X1 ENSG00000237491 (714150、745440) + 0 # # insideFeature distanceToSite gene_name # # <因素> <整数> <人物> # # X1 overlapStart 0 rp11 - 206 l10.2 # # X1 overlapStart 0 rp11 - 206 l10.9 # # # # # # 4美元农庄对象2范围和11元数据列:# # seqnames范围链| peakNames # # X4 chr1 (856361、856999) * | gr1__MACS_peak_17, gr2__region_4 # # X4 chr1 (856361、856999) * | gr1__MACS_peak_17, gr2__region_4 # #得分bdp_idx峰值特征特性。范围的功能。链# # X4 54.69 - 4 X4 ENSG00000223764 (852245、856396) - 54.69 # # X4 4 X4 ENSG00000187634(860260、879955) + # #距离insideFeature distanceToSite gene_name # # X4 overlapStart 0 RP11-54O7.3 # # X4 3260上游3260 SAMD11 # # # # - - - - - - - # # seqinfo: 1从一个未指明的基因组序列;没有seqlengths

1。9发现可能与DNA相互作用数据增强剂

有几种方法可用于确定染色体的空间组织在高分辨率3 c等5 c和嗝6。这些技术可以搜索峰值绑定到潜在的增强器区域。这里有一个例子来找到潜在的增强器区域山峰绑定。

DNA5C < -系统。文件(“extdata”、“wgEncodeUmassDekker5CGm12878PkV2.bed。广州”,包= " ChIPpeakAnno”) DNAinteractiveData < - toGRanges (gzfile (DNA5C)) findEnhancers(重叠、annoData DNAinteractiveData)
与5 # #农庄对象范围和14元数据列:# # seqnames范围链| # # < Rle > < IRanges > < Rle > | # # X1 chr1 (151591700、151591700) * | # # X1 chr1 (151591700、151591700) * | # # X1 chr1 (151591700、151591700) * | # # X1 chr1 (151591700、151591700) * | # # X1 chr1 (151630186、151630186) * | # # peakNames得分功能# # < CharacterList > <数字> <人物> # # X1 gr2__region_228, gr1__MACS_peak_229 78.675 ENSG00000207606 # # X1 gr2__region_228, gr1__MACS_peak_229 78.675 ENSG00000143390 # # X1 gr2__region_228, gr1__MACS_peak_229 78.675 ENSG00000143376 # # X1 gr2__region_228, gr1__MACS_peak_229 78.675 ENSG00000143367 # # X1 gr2__region_229, gr1__MACS_peak_230 ENSG00000143393 # # 78.675特性。范围的功能。链feature.shift。范围# # < IRanges > < Rle > < IRanges > # # X1 (151518272、151518272) + (151594534、151594534) # # X1 (151313116、151313116) - (151595209、151595209) # # X1 (151584541、151584541) + (151500588、151500588) # # X1 (151512781、151512781) + (151595902、151595902) # # X1 (151264273、151264273) - (151594247、151594247) # # feature.shift。链距离insideFeature distanceToSite # # < Rle > <整数> <因素> <整数> X1 + 2733上游2733 # # # # X1 + 3408上游3408 # # X1上游4084 # - 4084 # X1 + 4101上游4101 # # X1 - 20上游20 # # gene_name DNAinteractive峰值。范围# # <人物> <人物> < IRanges > # # X1 MIR554 X1 (151516086、151516086) # # X1 RFX5 X1 (151309062、151309062) # # X1 SNX27 X1 (151546428、151546428) # # X1 TUFT1 X1 (151546428、151546428) # # X1 PI4KB X1 (151283079、151283079) # # DNAinteractive。块# # < IRangesList > # # X1 [19082] (76263、87025) # # X1 [13633] (283287、294049) # # X1 [6978] (72324、90099) # # X1 [6978] (72324、90099) # # X1 [5699] (335673、353448) # # - - - - - - - # # seqinfo: 1从一个未指明的基因组序列;没有seqlengths

2工作流程比较绑定配置文件从多个转录因子(TFs)

给两个或两个以上的峰从不同的TFs列表,一个可能感兴趣DNA结合剖面的TFs是否相关,如果相关,常见的绑定模式是什么。工作流在这里展示了如何测试绑定资料的相关性三个TFs,如何发现常见的绑定模式。

2。1导入数据

路径< -系统。文件(“extdata”,包=“ChIPpeakAnno”)文件< - dir(路径,“broadPeak”) < -酸式焦磷酸钠(文件数据。,文件路径(路径),toGRanges格式=“broadPeak”)(数据)< - gsub(“名字。broadPeak”、“”,文件)

2。2确定有一个显著的多组之间的重叠峰

2.2.1超几何检验

当我们测试两组数据之间的关系基于超几何分布,所有潜在的结合位点的数量是必需的。的参数totalTest在函数makeVennDiagram表示有多少潜在的山峰总将用于超几何测试。它应该比最多的山峰在峰列表中。它被设置越小,更严格的测试。用来计算假定值不依赖于时间的价值totalTest。如何选择实用的指导totalTest,请参考帖子。下面的例子是假设有3%的编码区域+启动子区域。由于样本数据只有2号染色体的一个子集,我们估计总结合位点可能绑定地区基因组的1/24。

ol < - findOverlapsOfPeaks(数据,connectedPeaks =“keepAll”) averagePeakWidth < -意味着(宽度(unlist (GRangesList (ol peaklist美元))))合计< -上限(3.3 e + 9 * / averagePeakWidth / 24) 03 makeVennDiagram (ol, totalTest =合计,connectedPeaks =“keepAll”)

图8。维恩图的重叠。

# # $ p。# # # # TAF值Tead4 YY1 pval [1] 0 1 1 1.000000 e + 00 # # 2.904297 [2] 1 0 1 e - 258 # # [3] 1 1 0 8.970986 e-04 vennCounts美元# # # # # # TAF Tead4 YY1数计数。TAF计数。Tead4计数。YY1 # # [1] 849 0 0 0 0 0 0 # # [2] 0 0 1 621 0 0 621 # # [3] 0 1 0 2097 0 2097 0 # # [4] 0 1 1 309 0 310 319 # # [5] 1 0 0 59 59 0 0 # # [6] 1 0 1 166 172 0 170 # # [7] 1 1 0 8 8 8 0 # # [8] 1 1 1 476 545 537 521 # # attr(,“类”)# # [1]“VennCounts”

2.2.2排列测试

上面的超几何测试需要用户输入总数的估计潜在的结合位点对于一个给定的特遣部队。为了规避这个需求,我们实现了一个排列测试peakPermTest。执行排列测试前,用户需要生成随机高峰使用从输入峰值分布发现对于一个给定的功能类型(成绩单或外显子),以确保绑定位置相对于功能,如TSS和geneEnd,随机峰的宽度遵循输入峰值的分布。

另外,峰值代表所有潜在结合位点可以创建绑定关联概率的随机抽样使用峰值preparePool。这里有一个例子来为人类基因组构建峰值池使用转录因子结合位点集群(V3)(看到了吗?wgEncodeTfbsV3)下载编码热点(?HOT.spots)移除。热点的基因组区域的高概率受许多TFs ChIP-seq实验7。我们建议删除这些热点从山顶列表执行排列测试前避免高估的两个输入峰值之间的关系列表。用户还可以选择删除编码黑名单对于一个给定的物种。黑名单由识别始终有问题的地区独立的细胞系,为每一种类型的实验modENCODE编码和数据集8。请注意,一些黑名单可能需要转换为正确的基因组组装使用liftover实用程序。

下面是示例代码做排列测试使用permTest:

数据(HOT.spots)数据(wgEncodeTfbsV3) hotGR < -减少(unlist (HOT.spots)) removeOl < -函数(.ele) {ol < findOverlaps (。避署,hotGR)如果(长度(ol) > 0) .ele < - .ele[独特(queryHits (ol))) .ele} TAF < - removeOl(数据[[“TAF”]]) TEAD4 < - removeOl(数据[[“TEAD4”]]) YY1 < - removeOl(数据[[“YY1”]]) #我们子集池节省演示时间set.seed (1) wgEncodeTfbsV3。< -子集wgEncodeTfbsV3 [sample.int(长度(wgEncodeTfbsV3), 2000)]池< -新(“permPool grs = GRangesList (wgEncodeTfbsV3.subset), N =长度(YY1)) pt1 < - peakPermTest (YY1 TEAD4,池=池、种子= 1,force.parallel = FALSE)情节(pt1)

图9。测试YY1和TEAD4排列

pt2 < - peakPermTest (TAF YY1,池=池、种子= 1,force.parallel = FALSE)情节(pt2)

图10。排列测试YY1和战术空军

2。3可视化和绑定模式进行比较

周围的绑定模式可以可视化和比较基因组功能使用并排的热图和密度图使用绑定范围重叠峰。

功能< - ol $ peaklist[[长度(ol peaklist美元)]]功能。断裂< - reCenterPeaks(特性、宽度= 4000)# #我们还建议importData函数bioconductor trackViewer包# #导入覆盖。# # rtracklayer相比,这将节省你的时间,当处理大数据集。图书馆(rtracklayer)文件< - dir(路径,“大佬”)如果(.Platform $ OS。类型! =“窗口”){cvglists < -酸式焦磷酸钠(文件。路径(路径,文件)、导入格式=“大佬”,=功能。断裂,其他=“RleList”)} {# # rtracklayer不能导入大佬文件在Windows加载(文件。路径(路径,“cvglist.rds”))} (cvglists) <——gsub(“名字。大佬”、“”,文件)特性。中心< - reCenterPeaks(特性、宽度= 1)团体< - featureAlignedSignal (cvglists、特性。中心,上游= 2000,下游= 2000)# #因为bw文件只有一个子集的原始文件,# #每个峰的信号并不存在。保持< - rowSums (sig[[2]]) > 0团体< -酸式焦磷酸钠(团体、功能(.ele) .ele[,],简化= FALSE)特性。中心< -特性。中心(保持)的热图< - featureAlignedHeatmap(团体、特性。center, upstream=2000, downstream=2000, upper.extreme=c(3,.5,4))

图11。热图对齐功能按TAF的信号

sig.rowsums < -酸式焦磷酸钠(团体、rowSums na.rm = TRUE) d < -区域(sig.rowsums) hc < - hclust (d)特性。中心命令< - hc秩序的热图< -美元featureAlignedHeatmap(团体、特性。中心,上游= 2000,下游= 2000,upper.extreme = c (3、5、4), sortBy =“秩序”)

图12。按hclut热图一致的特性

featureAlignedDistribution(团体、特性。中心,上游= 2000,下游= 2000,类型=“l”)

图13。一致的分布特性

1。朱,l . J。et al。ChIPpeakAnno: bioconductor包来注释chip-seq和chip-chip数据。BMC生物信息学11日,237 (2010)。

2。朱,l . j .瓷砖数组105 - 124 (Springer, 2013)。

3所示。梁,M.-Y。、沼泽、通用汽车和速度,t . p .过去代表名额不足的短的dna在疱疹病毒基因组。计算生物学杂志》上3,345 - 360 (1996)。

4所示。j . van Helden, Olmo,李·m·德尔& Perez-Ortin j . e .下游酵母基因组序列的统计分析揭示了假定的聚腺苷酸化的信号。核酸的研究28日,1000 - 1010 (2000)。

5。Robertson G。et al。全基因组的dna stat1协会使用染色质免疫沉淀反应和大规模并行测序。自然方法4,651 - 657 (2007)。

6。排成E。et al。综合映射远程交互显示折叠原则的人类基因组。科学326年,289 - 293 (2009)。

7所示。Yip k . Y。et al。人类基因组区域分类基于实验结合位点100多transcription-related因素决定的。基因组医学杂志13日,R48 (2012)。

8。财团,e p &别人。一个集成的百科全书在人类基因组中dna的元素。自然489年,57 - 74 (2012)。