ChIPpeakAnno 3.20.1
这个快速启动的目的是介绍的四个新功能实现,toRanges
,annoGO
,annotatePeakInBatch
,addGeneIDs
在新版本的ChIPpeakAnno。包装器函数,ChIP-Seq山峰的注释变得简化成四个主要的步骤:
1读数据与峰值toGRanges
2生成注释数据toGRanges
3注释的山峰annotatePeakInBatch
4添加额外的信息addGeneIDs
大多数的时间用户可以使用这些函数的参数的默认设置。这使得注释管道直接和容易使用。
农庄
与toGRanges
# #首先,加载ChIPpeakAnno包库(ChIPpeakAnno)
路径< -系统。文件(“extdata”、“Tead4。broadPeak”,包= " ChIPpeakAnno”)的峰值< - toGRanges(路径,格式=“broadPeak”)峰[1:2]
与2和4 # #农庄对象元数据列:# # seqnames范围链|得分signalValue pValue # # < Rle > < IRanges > < Rle > | <整数> <数字> <数字> # # peak12338 chr2 175473 - 176697 * 206 (|) 668.42 - 1 # # peak12339 chr2 246412 - 246950 * 100.23 | 31日1 # # qValue # # <数字> # # 1 # # peak12339 peak12338 1 # # - - - - - - - # # seqinfo: 1从一个未指明的基因组序列;没有seqlengths
toGRanges
库(EnsDb.Hsapiens.v75) annoData < - toGRanges (EnsDb.Hsapiens.v75) annoData [1:2]
1与2 # #农庄对象范围和元数据列:# # seqnames范围链| gene_name # # < Rle > < IRanges > < Rle > | <人物> # # ENSG00000223972 chr1 11869 - 14412 + | DDX11L1 # # ENSG00000227232 chr1 14363 - 29806 | WASH7P # # - - - - - - - # # seqinfo: 273年从GRCh37基因组序列
annotatePeakInBatch
# #保持在同一风格seqlevelsStyle seqnames(山峰)< - seqlevelsStyle (annoData) # #做注释,最近的TSS庵野< - annotatePeakInBatch(山峰,AnnotationData = annoData)伊斯兰教纪元[1:2]
与2 # #农庄对象范围和13元数据列:# # seqnames范围链|得分# # < Rle > < IRanges > < Rle > | <整数> # # peak12338。ENSG00000227061 chr2 175473 - 176697 * 206 # # peak12339 |。ENSG00000143727 chr2 246412 - 246950 * | 31 # # signalValue pValue qValue峰值# # <数字> <数字> <数字> <人物> # # peak12338。1 peak12338 # # peak12339 ENSG00000227061 668.42 - 1。ENSG00000143727 100.23 - 1 1 peak12339 # #特性start_position end_position # # <人物> <整数> <整数> # # peak12338。202605 # # peak12339 ENSG00000227061 ENSG00000227061 197569。ENSG00000143727 ENSG00000143727 264140 278283 # # feature_strand insideFeature distancetoFeature # # <人物> <因素> <数字> # # peak12338。-22096 # # peak12339 ENSG00000227061 +上游。ENSG00000143727 +上游-17728 # # shortestDistance fromOverlappingOrNearest # # <整数> <人物> # # peak12338。20872年ENSG00000227061 NearestLocation # # peak12339。17190年ENSG00000143727 NearestLocation # # - - - - - - - # # seqinfo: 1从一个未指明的基因组序列;没有seqlengths
#一个饼图可以用来演示重叠峰的特点。pie1(表(伊斯兰教纪元insideFeature美元))
# #第四步:添加额外的注释addGeneIDs
库(org.Hs.eg.db)伊斯兰教纪元< - addGeneIDs(伊斯兰教纪元,orgAnn = " org.Hs.eg。db”, feature_id_type = " ensembl_gene_id ", IDs2Add = c(“象征”)负责人(伊斯兰教纪元)
与6 # #农庄对象范围和14元数据列:# # seqnames范围链|得分# # < Rle > < IRanges > < Rle > | <整数> # # peak12338。ENSG00000227061 chr2 175473 - 176697 * 206 # # peak12339 |。ENSG00000143727 chr2 246412 - 246950 * | 31 # # peak12340。ENSG00000143727 chr2 249352 - 250233 * 195 # # peak12341 |。ENSG00000143727 chr2 259896 - 261404 * 510 # # peak12342 |。ENSG00000143727 chr2 261931 - 263148 * 48 # # peak12343 |。ENSG00000236856 chr2 378232 - 378871 * 132 (|) # # signalValue pValue qValue峰值# # <数字> <数字> <数字> <人物> # # peak12338。1 peak12338 # # peak12339 ENSG00000227061 668.42 - 1。1 peak12339 # # peak12340 ENSG00000143727 100.23 - 1。1 peak12340 # # peak12341 ENSG00000143727 630.65 - 1。1 peak12341 # # peak12342 ENSG00000143727 1649.19 - 1。1 peak12342 # # peak12343 ENSG00000143727 155.56 - 1。ENSG00000236856 426.52 - 1 1 peak12343 # #特性start_position end_position # # <人物> <整数> <整数> # # peak12338。202605 # # peak12339 ENSG00000227061 ENSG00000227061 197569。278283 # # peak12340 ENSG00000143727 ENSG00000143727 264140。278283 # # peak12341 ENSG00000143727 ENSG00000143727 264140。278283 # # peak12342 ENSG00000143727 ENSG00000143727 264140。278283 # # peak12343 ENSG00000143727 ENSG00000143727 264140。ENSG00000236856 ENSG00000236856 388412 416885 # # feature_strand insideFeature distancetoFeature # # <人物> <因素> <数字> # # peak12338。-22096 # # peak12339 ENSG00000227061 +上游。-17728 # # peak12340 ENSG00000143727 +上游。-14788 # # peak12341 ENSG00000143727 +上游。-4244 # # peak12342 ENSG00000143727 +上游。-2209 # # peak12343 ENSG00000143727 +上游。ENSG00000236856 +上游-10180 # # shortestDistance fromOverlappingOrNearest # # <整数> <人物> # # peak12338。20872年ENSG00000227061 NearestLocation # # peak12339。17190年ENSG00000143727 NearestLocation # # peak12340。13907年ENSG00000143727 NearestLocation # # peak12341。2736年ENSG00000143727 NearestLocation # # peak12342。992年ENSG00000143727 NearestLocation # # peak12343。9541年ENSG00000236856 NearestLocation # # # # <人物> # # peak12338象征。ENSG00000227061 < NA > # # peak12339。ENSG00000143727 ACP1 # # peak12340。ENSG00000143727 ACP1 # # peak12341。ENSG00000143727 ACP1 # # peak12342。ENSG00000143727 ACP1 # # peak12343。ENSG00000236856 < NA > # # - - - - - - - # # seqinfo: 1从一个未指明的基因组序列;没有seqlengths
本节演示了如何标注相同的峰值数据快速启动1中使用一种新的基于注释TxDb与toGRanges
。
库(TxDb.Hsapiens.UCSC.hg19.knownGene) annoData < - toGRanges (TxDb.Hsapiens.UCSC.hg19.knownGene) annoData [1:2]
与2和0 # #农庄对象元数据列:链# # # # seqnames范围< Rle > < IRanges > < Rle > # # 1 chr19 58858172 - 58874214 # # 10 chr8 58858172 - 18258723 + # # - - - - - - - # # seqinfo: 93年从hg19基因组序列(1循环)
seqlevelsStyle(山峰)< - seqlevelsStyle (annoData)
相同的annotatePeakInBatch
函数是用来注释刚刚创建的高峰使用注释数据。这一次我们希望山峰内2 kb上游和下游300 bp的TSS基因体内。
庵野< - annotatePeakInBatch(山峰,AnnotationData = annoData输出=“重叠”,FeatureLocForDistance =“TSS bindingRegion = c(-2000、300))伊斯兰教纪元美元符号< - xget(伊斯兰教纪元特性,美元org.Hs.egSYMBOL)头(伊斯兰教纪元)
与6和12 # #农庄对象元数据列:# # seqnames范围链|得分signalValue pValue # # < Rle > < IRanges > < Rle > | <整数> <数字> <数字> # # peak12342 chr2 261931 - 263148 * 48 155.56 | 1 # # peak12345 chr2 677052 - 677862 * 103 (|) 334.74 - 1 # # peak12348 chr2 3380709 - 3380709 * 110 (|) 357.22 - 1 # # peak12348 chr2 3380709 - 3380709 * 110 (|) 357.22 - 1 # # peak12349 chr2 3383131 - 3383131 * 199 (|) 645.56 - 1 # # peak12349 chr2 3383131 - 3383131 * 199 (|) 645.56 - 1 # # qValue峰值特征特性。范围的功能。链# # <数字> <人物> <人物> < IRanges > < Rle > # # peak12342 1 peak12342 52 264869 - 278282 + # # peak12345 peak12345 129787 667973 - 677439 # # peak12348 1 peak12348 7260 3192741 - 3381653 - 1 # # peak12348 peak12348 51112 3381653 - 3488857 + # # peak12349 1 peak12349 7260 3192741 - 3381653 - 1 # # peak12349 peak12349 51112 3381653 - 3488857 + # #距离insideFeature distanceToSite符号# # <整数> <因素> <整数> <人物> # # peak12342 1720上游1720 ACP1 # # peak12345 overlapStart 0 TMEM18 # # peak12348 overlapStart 0 EIPR1 # # peak12348 1130上游1130 TRAPPC12 # # peak12349 1477上游1477 EIPR1 # # peak12349 overlapStart 0 TRAPPC12 # # - - - - - - - # # seqinfo: 1从一个未指明的基因组序列;没有seqlengths
本节演示了ChIPpeakAnno annotaition功能的灵活性。而不是建立一个新的注释数据,参数bindingTypes和bindingRegion在annoPeak
函数可以设置为找到峰值在5000 bp TSS的上游和下游,这可能是用户定义的启动子区域。
庵野< - annotatePeakInBatch(山峰,AnnotationData = annoData输出=“nearestBiDirectionalPromoters bindingRegion = c(-5000、500))伊斯兰教纪元美元符号< - xget(伊斯兰教纪元特性,美元org.Hs.egSYMBOL)伊斯兰教纪元(庵野峰美元= =“peak12725”)
与2 # #农庄对象范围和12元数据列:# # seqnames范围链|得分signalValue pValue # # < Rle > < IRanges > < Rle > | <整数> <数字> <数字> # # peak12725 chr2 28112981 - 28112981 * | 34 110.72 - 1 # # peak12725 chr2 28112981 - 28112981 * | 34 110.72 - 1 # # qValue峰值特征特性。范围的功能。链# # <数字> <人物> <人物> < IRanges > < Rle > # # peak12725 peak12725 9577 28113482 - 28113482 + # # peak12725 1 peak12725 64080 28004266 - 28004266 - # #距离insideFeature distanceToSite符号# # <整数> <因素> <整数> <人物> # # peak12725 5上游5 BABAM2 # # peak12725 overlapStart 0 RBKS # # - - - - - - - # # seqinfo: 1从一个未指明的基因组序列;没有seqlengths
带注释的山峰可以与R / Bioconductor可视化方案trackViewer由我们小组开发的。
库(trackViewer) gr < - <高峰的峰值(“peak12725”)开始(gr) < -开始(gr) - 5000端(gr) < -端(gr) + 5000 (.Platform $ OS。类型! =“窗口”)= {peak12725 < - importScore(文件系统。文件(“extdata”、“Tead4。大佬”,包= " ChIPpeakAnno”),范围=高峰,格式=“大佬”)其他}{# # rtracklayer不能导入大佬文件在Windows加载(file.path(目录名(路径),“cvglist.rds”)) peak12725 < -视图(cvglists [[“Tead4”]] [[as.character (seqnames(峰值)))),(峰值)开始,结束(峰值))peak12725 < - viewApply (peak12725 as.numeric) tmp < -代表(峰值、宽度(峰值))宽度(tmp) < - 1 tmp < -转变(tmp转变= 0:(宽度(峰值)1)mcols (tmp) < - peak12725 colnames (mcols (tmp)) < -“分数”peak12725 < -新(“跟踪”,dat = tmp name = " peak12725 "类型=“数据”,格式=“床”)}trs < - geneModelFromTxdb (TxDb.Hsapiens.UCSC.hg19。knownGene org.Hs.eg。db, gr)名称(trs) < -粘贴(酸式焦磷酸钠(trs、功能(.ele) .ele@name)、名称(trs), 9 =”:“) optSty < - optimizeStyle(专辑曲目(peak12725、trs heightDist = c (。3、7)),主题=“bw”) viewTracks (optSty跟踪美元,gr = gr, viewerStyle = optSty $风格)