警告:在这个描述,由于空间限制,我们演示rca的功能使用静态图像。为了从rca看起来看到看到一个交互式报告rca: runReport ()
。
最先进的功能,使用和安装说明,,看到我们的示例输出github库在这里。
rca动态基因组注释是一个自动化系统,它提供了自定义输入文件包含转录组的地区。转录组区域,例如,峰值区域检测到CLIP-Seq分析检测protein-RNA交互,RNA的修改(别名epitranscriptome), CAGE-tag地点,或任何其他的目标区域在转录组水平。
rca设计为rna结合站点的功能分析的报表工具检测到高通量实验。需要床格式作为输入文件包含基因组RNA结合位点和GTF的坐标文件,其中包含通常提供的基因组注释功能如运用和UCSC的公开可用的数据库。rca执行重叠操作RNA基因组坐标之间的结合位点和基因注释特性和产生深入注释总结等结合位点的分布对记录功能(外显子、内含子5‘/ 3’UTR区域,exon-intron边界,启动子区域,和全记录)。此外,通过探测目标的收集记录,rca可以进行功能注释表丰富基因集(带注释的分子签名数据库)条款。作为一个最重要的问题,在protein-RNA交互分析期间出现;rca模块检测序列图案丰富的转录组的目标区域。rca的最终报告由高质量的动态数据和表,这很容易适用于出版物或者其他学术用途。
rca最低限度要求文件和一个GTF文件作为输入一个床。床上文件应该包含坐标/间隔通过转录组的转录组地区位于Clip-Seq等方法。GTF文件应该提供参考注释。推荐的GTF源文件系综数据库。
装饰图案,为了演示rca功能,我们使用样品床和GTF内置rca库的数据,也可以使用一个共同的进口R功能:数据()。导入自定义床和GTF文件,用户应该执行两个rca函数称为importBed()和importGtf ()。
使用importBed()和importGtf(),用户应提供文件路径文件和GTF文件各自的床上。减少内存使用量和时间消耗,我们建议用户设置sampleN = 10000
为了避免巨大的间隔输入。
找出查询的分布地区基因类型:
biotype_col < -grep(“gene_biotype”,colnames(重叠),值=T)df < -(重叠,长度(独特的(overlappingQuery)) =biotype_col]colnames(df) < -c(“特性”,“数”)df美元< -百分比轮(df美元数/长度(queryRegions)*One hundred.,1)df < -df (订单(统计,减少=真正的)]ggplot2::ggplot(df,aes(x =重新排序(功能,- - - - - -%),y =百分比)+geom_bar(统计=“身份”,aes(填补=功能)+geom_label(aes(y =百分比+0.5),标签=df美元数)+实验室(x =的记录功能,y =paste0(“重叠(n =百分比”,长度(queryRegions),“)”))+theme_bw(base_size =14)+主题(axis.text。x =element_text(角=90年))
GTF文件包含一些注释功能(如外显子、成绩单),通常是明确定义,然而,一些文字记录功能如内含子,exon-intron边界,启动子区域只有隐式定义。这种隐含的特征可以从家庭使用makeTxDb GTF文件中提取GenomicFeatures的函数库。
首先我们创建一个农庄组织对象的列表,每个列表元素包含所有可用的坐标记录的功能,如成绩单、外显子,内含子,5‘/ 3’utr exon-intron边界,和启动子区域。
有一个全球的概述查询地区基因的分布特性,我们可以使用summarizeQueryRegions函数。如果给定查询区域不重叠与任何给定的坐标的记录功能,分类下NoFeatures
。
摘要< -summarizeQueryRegions(queryRegions =queryRegions,txdbFeatures =txdbFeatures)df < -data.frame(总结)df美元< -百分比轮((df美元数/长度(queryRegions)),3)*One hundred.df美元< -特点rownames(df)ggplot2::ggplot(df,aes(x =重新排序(功能,- - - - - -%),y =百分比)+geom_bar(统计=“身份”,aes(填补=功能)+geom_label(aes(y =百分比+3),标签=df美元数)+实验室(x =的记录功能,y =paste0(“重叠(n =百分比”,长度(queryRegions),“)”))+theme_bw(base_size =14)+主题(axis.text。x =element_text(角=90年))
找出哪些基因重叠与多少查询和分类重叠记录功能;我们使用getTargetedGenesTable
函数,它返回一个data.frame对象。
dt < -getTargetedGenesTable(queryRegions =queryRegions,txdbFeatures =txdbFeatures)dt < -dt (订单(成绩单,减少=真正的)]knitr::kable(dt [1:10,)
tx_name | 成绩单 | 外显子 | 启动子 | fiveUTRs | 内含子 | cd | threeUTRs |
---|---|---|---|---|---|---|---|
ENST00000317713 | 33 | 28 | 0 | 0 | 5 | 24 | 4 |
ENST00000361689 | 33 | 28 | 0 | 0 | 5 | 24 | 4 |
ENST00000372915 | 33 | 28 | 0 | 0 | 5 | 24 | 4 |
ENST00000539005 | 33 | 28 | 0 | 0 | 5 | 24 | 4 |
ENST00000545844 | 33 | 28 | 0 | 0 | 5 | 24 | 4 |
ENST00000564288 | 33 | 28 | 0 | 0 | 5 | 24 | 4 |
ENST00000567887 | 33 | 28 | 0 | 0 | 5 | 24 | 4 |
ENST00000372925 | 28 | 23 | 0 | 0 | 5 | 19 | 4 |
ENST00000289893 | 27 | 22 | 0 | 0 | 5 | 18 | 4 |
ENST00000367142 | 14 | 14 | 0 | 0 | 0 | 3 | 12 |
它可能是有用的在查询区域的分布看成绩单的边界特征。例如,它可能是重要的相对信号记录末端(转录起始站点和转录结束网站)。或者,它可能是重要的信号是如何分布的外显子边界,这可能会给一个想法记录的有关规定。这里我们将演示如何得到这样的信号分布在转录起始/结束网站。同样的方法可以做任何其他记录的集合特性(外显子、内含子、启动子、utr等。)
cvgF < -getFeatureBoundaryCoverage(queryRegions =queryRegions,featureCoords =txdbFeatures美元成绩单、flankSize =1000年,boundaryType =“fiveprime”,sampleN =10000年)cvgT < -getFeatureBoundaryCoverage(queryRegions =queryRegions,featureCoords =txdbFeatures美元成绩单、flankSize =1000年,boundaryType =“threeprime”,sampleN =10000年)cvgF美元边界< -“fiveprime”cvgT美元边界< -“threeprime”df < -rbind(cvgF cvgT)ggplot2::ggplot(df,aes(x =基地,y =meanCoverage))+geom_ribbon(填补=“lightgreen”,aes(ymin =meanCoverage- - - - - -standardError*1.96,ymax =meanCoverage+standardError*1.96))+geom_line(颜色=“黑”)+facet_grid(~边界)+theme_bw(base_size =14)
报道资料可以获得一个类型的记录特性或记录的列表功能。这里我们将演示如何得到覆盖配置文件查询地区所有可用的记录功能。这可能是一个好主意使用sampleN参数随机downsample目标区域加快计算速度。
cvgList < -calculateCoverageProfileList(queryRegions =queryRegions,targetRegionsList =txdbFeatures,sampleN =10000年)ggplot2::ggplot(cvgListaes(x =垃圾箱,y =meanCoverage))+geom_ribbon(填补=“lightgreen”,aes(ymin =meanCoverage- - - - - -standardError*1.96,ymax =meanCoverage+standardError*1.96))+geom_line(颜色=“黑”)+theme_bw(base_size =14)+facet_wrap(~特性,ncol =3)
rca包,一个主题分析也是可能的。rca使用motifRG
库中找到丰富主题查询区域。
motifResults < -runMotifRG(queryRegions =queryRegions,resizeN =15,sampleN =10000年,genomeVersion =“hg19”,motifN =2,nCores =2)
1.769472 # # GAAGGA e-06 ATTTTT # # # #跳过模式提炼GAAGGA 11.70585: 11.78265 12.53327 11.24818 11.6384 10.93289 478 162 464 157 # #新主题:GAAGGA # #匹配范围637 # #[1]”改“# #[1]“完成改”# # TGGAGA 3.713046 e-06 TTTTTA # # # #跳过模式提炼TGGAGA 12.97348: 11.80649 12.57438 13.59972 12.5562 13.74099 551 173 530 165 # #新主题:TGGAGA
票面价值(mfrow =c(1,2),3月=c(2,2,2,2))为(我在1:长度(motifResults美元图案)){motifPattern < -motifResults美元主题[[我]]@模式motifRG::plotMotif(匹配=motifResults美元主题[[我]]@匹配美元模式,主要=paste0(“主题- - - - - -”,我,“:”motifPattern),熵=真正的)}
从主题分析结果汇总表
模式 | 分数 | fgHits | bgHits | fgSeq | bgSeq | 比 | fgFrac | bgFrac |
---|---|---|---|---|---|---|---|---|
GAAGGA | 11.7 | 478年 | 162年 | 464年 | 157年 | 3.0 | 0.0464 | 0.0157 |
TGGAGA | 13.1 | 558年 | 175年 | 536年 | 167年 | 3.2 | 0.0536 | 0.0167 |
rca执行可以词浓缩分析找出丰富功能基因重叠区域查询。下面是演示了如何获得生物过程条件(“英国石油公司”)丰富的基因重叠查询区域和十大与大多数褶皱变化增加相对于背景。
#得到GTF的所有基因数据backgroundGenes < -独特的(人造石铺地面美元gene_id)#获取查询基因重叠区域targetedGenes < -独特的(重叠美元gene_id)#运行TopGOgoBP < -runTopGO(本体=“英国石油公司”,物种=“人类”,backgroundGenes =backgroundGenes,targetedGenes =targetedGenes)goBP < -goBP [订单(goBP美元foldEnrichment,减少=真正的),)rownames(goBP) < -goBP美元GO.IDgoBP < -子集(goBP选择=- - - - - -c(注释、classicFisher bh, GO.ID))knitr::kable(goBP [1:10,)
术语 | 重要的 | 预期 | bonferroni | foldEnrichment | |
---|---|---|---|---|---|
去:0006403 | RNA本地化 | 15 | 4.47 | 0.0011750 | 3.36 |
去:0006402 | 信使核糖核酸分解过程 | 27 | 8.73 | 0.0000007 | 3.09 |
去:0043488 | 信使rna稳定的监管 | 15 | 4.90 | 0.0069325 | 3.06 |
去:0015931 | nucleobase-containing复合运输 | 16 | 5.32 | 0.0048175 | 3.01 |
去:0006401 | 核糖核酸分解过程 | 28 | 9.37 | 0.0000011 | 2.99 |
去:0043487 | 监管RNA稳定 | 15 | 5.11 | 0.0152750 | 2.94 |
去:0061013 | 信使rna分解过程的监管 | 15 | 5.32 | 0.0305500 | 2.82 |
去:1903311 | 信使rna代谢过程的调节 | 22 | 8.09 | 0.0008342 | 2.72 |
去:0006913 | 核质运输 | 17 | 6.60 | 0.0434750 | 2.58 |
去:0051169 | 核运输 | 17 | 6.60 | 0.0434750 | 2.58 |
rca可以使用从数据库分子特征基因集,并计算基因集富集分析(GSEA)来找出哪些基因集富集基因中查询的目标区域。
下面我们展示GSEA例使用随机生成的基因集(为了不违反MSIGDB许可证协议)提供在rca内置数据。实际MSIGDB基因设置注释必须从MSIGDB用户下载的网站。rca提供函数来解析注解(rca: parseMsigdb
通过orthology)并将它们映射到其他物种(rca: createOrthologousGeneSetList
等其他物种),使GSEA老鼠和苍蝇。
# geneSets < - parseMsigdb (msigdbFile <路径>)数据(geneSets)resultsGSEA < -runGSEA(geneSetList =geneSets,backgroundGenes =backgroundGenes,targetedGenes =targetedGenes)knitr::kable(x =resultsGSEA [1:10,)
治疗 | treatmentSize | expectedInTreatment | fisherPVal | 黑洞 | bonferroni | foldEnrichment | |
---|---|---|---|---|---|---|---|
randomGeneSet52 | 9 | 411年 | 3.5 | 0.0201899 | 0.628554 | 1 | 2.57 |
randomGeneSet16 | 8 | 411年 | 3.3 | 0.0370182 | 0.628554 | 1 | 2.42 |
randomGeneSet87 | 10 | 411年 | 4.3 | 0.0251697 | 0.628554 | 1 | 2.33 |
randomGeneSet99 | 7 | 411年 | 3.0 | 0.0550203 | 0.628554 | 1 | 2.33 |
randomGeneSet42 | 9 | 411年 | 4.0 | 0.0368588 | 0.628554 | 1 | 2.25 |
randomGeneSet8 | 7 | 411年 | 3.2 | 0.0664294 | 0.628554 | 1 | 2.19 |
randomGeneSet53 | 7 | 411年 | 3.2 | 0.0664294 | 0.628554 | 1 | 2.19 |
randomGeneSet11 | 10 | 411年 | 4.7 | 0.0360243 | 0.628554 | 1 | 2.13 |
randomGeneSet95 | 9 | 411年 | 4.3 | 0.0521195 | 0.628554 | 1 | 2.09 |
randomGeneSet13 | 4 | 411年 | 2.0 | 0.1851949 | 0.628554 | 1 | 2.00 |
rca还提供了函数映射MSIGDB注释从人类飞行和鼠标。
#解析人类注释refGeneSets < - parseMsigdb (filePath = MSIGDB注释文件<路径>)#基因集映射到其他物种使用#参考基因组同源基因之间的关系(人类)和目标基因(如鼠标)orthGeneSets < - createOrthologousGeneSetList (referenceGeneSetList = refGeneSets refGenomeVersion = hg19, targetGenomeVersion = mm9) #映射的基因集可用于GSEA分析使用runGSEA命令。
用户可以使用runReport()函数来生成完整的自定义报告包括所有上述分析模块。有四个主要部分的分析报告。
默认情况下,runReport()函数的目的是运行在所有的四个模块,同时用户可以关闭这些单个模块。
下面是使用这些功能示例命令来生成报告。
runReport ()
runReport (queryFilePath = '输入。床上,gffFilePath = '注释。gtf’, msigdbFilePath = ' human_msigdb.gmt”)
runReport (queryFilePath = '输入。床上,gffFilePath = '注释。gtf human_msigdb, msigdbFilePath =。格林尼治时间”,motifAnalysis = FALSE, goAnalysis = FALSE)
如果需要msigdb模块,必须设置为msigdbFilePath msigdb注释为“人类”。MSIGDB其他物种的数据集将在后台使用createOrthologousMsigdbDataset函数计算
runReport input.mm9 (queryFilePath =”。床上,gffFilePath = annotation.mm9。gtf human_msigdb, msigdbFilePath =。格林尼治时间”,genomeVersion = ' mm9”)
runReport(安静= TRUE)
可以打印原始数据用来制作感兴趣的情节和HTML报告中的表输出runReport函数。这些表可以用于多个分析结果的荟萃分析。为了激活此功能,printProcessedTables参数必须设置为TRUE。
runReport (printProcessedTables = TRUE)
rca是发达的Altuna Akalin(科学的生物信息学平台)拉博拉Uyar(生物信息学的科学家),Dilmurat优素福(生物信息学科学家)和里卡多Wurmus(系统管理员)在柏林医学系统生物学研究所(BIMSB在分子医学Max-Delbrueck-Center ()争取民主变革运动在柏林)。
rca开发作为生物信息学服务的一部分RNA生物信息学中心,这是八个中心之一的德国生物信息学网络基础设施(de.NBI)。