介绍

rca动态基因组注释是一个自动化系统,它提供了自定义输入文件包含转录组的地区。转录组区域,例如,峰值区域检测到CLIP-Seq分析检测protein-RNA交互,RNA的修改(别名epitranscriptome), CAGE-tag地点,或任何其他的目标区域在转录组水平。

rca设计为rna结合站点的功能分析的报表工具检测到高通量实验。需要床格式作为输入文件包含基因组RNA结合位点和GTF的坐标文件,其中包含通常提供的基因组注释功能如运用和UCSC的公开可用的数据库。rca执行重叠操作RNA基因组坐标之间的结合位点和基因注释特性和产生深入注释总结等结合位点的分布对记录功能(外显子、内含子5‘/ 3’UTR区域,exon-intron边界,启动子区域,和全记录)。此外,通过探测目标的收集记录,rca可以进行功能注释表丰富基因集(带注释的分子签名数据库)条款。作为一个最重要的问题,在protein-RNA交互分析期间出现;rca模块检测序列图案丰富的转录组的目标区域。rca的最终报告由高质量的动态数据和表,这很容易适用于出版物或者其他学术用途。

数据输入

rca最低限度要求文件和一个GTF文件作为输入一个床。床上文件应该包含坐标/间隔通过转录组的转录组地区位于Clip-Seq等方法。GTF文件应该提供参考注释。推荐的GTF源文件系综数据库。

装饰图案,为了演示rca功能,我们使用样品床和GTF内置rca库的数据,也可以使用一个共同的进口R功能:数据()。导入自定义床和GTF文件,用户应该执行两个rca函数称为importBed()和importGtf ()。

导入示例数据

图书馆(rca)数据(queryRegions)#样品在床上queryRegions格式()数据(人造石铺地面)#人造石铺地面文件示例

导入自定义数据

使用importBed()和importGtf(),用户应提供文件路径文件和GTF文件各自的床上。减少内存使用量和时间消耗,我们建议用户设置sampleN = 10000为了避免巨大的间隔输入。

queryRegions < -importBed(filePath =<床上文件路径>,sampleN =10000年)人造石铺地面< -importGtf(filePath =<GTF文件路径>)

总结查询区域的重叠与基因组注释功能

查询注释文件

重叠< -as.data.table(queryGff(queryRegions =queryRegions,gffData =人造石铺地面)

找到有针对性的基因类型

找出查询的分布地区基因类型:

biotype_col < -grep(“gene_biotype”,colnames(重叠),值=T)df < -(重叠,长度(独特的(overlappingQuery)) =biotype_col]colnames(df) < -c(“特性”,“数”)df美元< -百分比轮(df美元数/长度(queryRegions)*One hundred.,1)df < -df (订单(统计,减少=真正的)]ggplot2::ggplot(df,aes(x =重新排序(功能,- - - - - -%),y =百分比)+geom_bar(统计=“身份”,aes(填补=功能)+geom_label(aes(y =百分比+0.5),标签=df美元数)+实验室(x =的记录功能,y =paste0(“重叠(n =百分比”,长度(queryRegions),“)”))+theme_bw(base_size =14)+主题(axis.text。x =element_text(角=90年))

扩展注释特征空间

GTF文件包含一些注释功能(如外显子、成绩单),通常是明确定义,然而,一些文字记录功能如内含子,exon-intron边界,启动子区域只有隐式定义。这种隐含的特征可以从家庭使用makeTxDb GTF文件中提取GenomicFeatures的函数库。

首先我们创建一个农庄组织对象的列表,每个列表元素包含所有可用的坐标记录的功能,如成绩单、外显子,内含子,5‘/ 3’utr exon-intron边界,和启动子区域。

txdbFeatures < -getTxdbFeaturesFromGRanges(人造石铺地面)

策划之间的重叠计数查询区域和记录功能

有一个全球的概述查询地区基因的分布特性,我们可以使用summarizeQueryRegions函数。如果给定查询区域不重叠与任何给定的坐标的记录功能,分类下NoFeatures。

摘要< -summarizeQueryRegions(queryRegions =queryRegions,txdbFeatures =txdbFeatures)df < -data.frame(总结)df美元< -百分比轮((df美元数/长度(queryRegions)),3)*One hundred.df美元< -特点rownames(df)ggplot2::ggplot(df,aes(x =重新排序(功能,- - - - - -%),y =百分比)+geom_bar(统计=“身份”,aes(填补=功能)+geom_label(aes(y =百分比+3),标签=df美元数)+实验室(x =的记录功能,y =paste0(“重叠(n =百分比”,长度(queryRegions),“)”))+theme_bw(base_size =14)+主题(axis.text。x =element_text(角=90年))

获得一个表查询区域和基因之间的重叠计数

找出哪些基因重叠与多少查询和分类重叠记录功能;我们使用getTargetedGenesTable函数,它返回一个data.frame对象。

dt < -getTargetedGenesTable(queryRegions =queryRegions,txdbFeatures =txdbFeatures)dt < -dt (订单(成绩单,减少=真正的)]knitr::kable(dt [1:10,)

tx_name	成绩单	外显子	内含子	cd	threeUTRs
ENST00000317713	33	28	5	24	4
ENST00000361689	33	28	5	24	4
ENST00000372915	33	28	5	24	4
ENST00000539005	33	28	5	24	4
ENST00000545844	33	28	5	24	4
ENST00000564288	33	28	5	24	4
ENST00000567887	33	28	5	24	4
ENST00000372925	28	23	5	19	4
ENST00000289893	27	22	5	18	4
ENST00000367142	14	14	0	3	12

分析查询地区的报道记录功能

覆盖查询区域特性的边界

它可能是有用的在查询区域的分布看成绩单的边界特征。例如,它可能是重要的相对信号记录末端(转录起始站点和转录结束网站)。或者,它可能是重要的信号是如何分布的外显子边界,这可能会给一个想法记录的有关规定。这里我们将演示如何得到这样的信号分布在转录起始/结束网站。同样的方法可以做任何其他记录的集合特性(外显子、内含子、启动子、utr等。)

cvgF < -getFeatureBoundaryCoverage(queryRegions =queryRegions,featureCoords =txdbFeatures美元成绩单、flankSize =1000年,boundaryType =“fiveprime”,sampleN =10000年)cvgT < -getFeatureBoundaryCoverage(queryRegions =queryRegions,featureCoords =txdbFeatures美元成绩单、flankSize =1000年,boundaryType =“threeprime”,sampleN =10000年)cvgF美元边界< -“fiveprime”cvgT美元边界< -“threeprime”df < -rbind(cvgF cvgT)ggplot2::ggplot(df,aes(x =基地,y =meanCoverage))+geom_ribbon(填补=“lightgreen”,aes(ymin =meanCoverage- - - - - -standardError*1.96,ymax =meanCoverage+standardError*1.96))+geom_line(颜色=“黑”)+facet_grid(~边界)+theme_bw(base_size =14)

覆盖配置文件查询区域的所有记录功能

报道资料可以获得一个类型的记录特性或记录的列表功能。这里我们将演示如何得到覆盖配置文件查询地区所有可用的记录功能。这可能是一个好主意使用sampleN参数随机downsample目标区域加快计算速度。

cvgList < -calculateCoverageProfileList(queryRegions =queryRegions,targetRegionsList =txdbFeatures,sampleN =10000年)ggplot2::ggplot(cvgListaes(x =垃圾箱,y =meanCoverage))+geom_ribbon(填补=“lightgreen”,aes(ymin =meanCoverage- - - - - -standardError*1.96,ymax =meanCoverage+standardError*1.96))+geom_line(颜色=“黑”)+theme_bw(base_size =14)+facet_wrap(~特性,ncol =3)

使用motifRG主题分析

计算丰富的图案

rca包,一个主题分析也是可能的。rca使用motifRG库中找到丰富主题查询区域。

motifResults < -runMotifRG(queryRegions =queryRegions,resizeN =15,sampleN =10000年,genomeVersion =“hg19”,motifN =2,nCores =2)

1.769472 # # GAAGGA e-06 ATTTTT # # # #跳过模式提炼GAAGGA 11.70585: 11.78265 12.53327 11.24818 11.6384 10.93289 478 162 464 157 # #新主题:GAAGGA # #匹配范围637 # #[1]”改“# #[1]“完成改”# # TGGAGA 3.713046 e-06 TTTTTA # # # #跳过模式提炼TGGAGA 12.97348: 11.80649 12.57438 13.59972 12.5562 13.74099 551 173 530 165 # #新主题:TGGAGA

票面价值(mfrow =c(1,2),3月=c(2,2,2,2))为(我在1:长度(motifResults美元图案)){motifPattern < -motifResults美元主题[[我]]@模式motifRG::plotMotif(匹配=motifResults美元主题[[我]]@匹配美元模式,主要=paste0(“主题- - - - - -”,我,“:”motifPattern),熵=真正的)}

主题分析:主题摘要统计信息

从主题分析结果汇总表

摘要< -getMotifSummaryTable(motifResults)knitr::kable(总结)

模式	分数	fgHits	bgHits	fgSeq	bgSeq	比	fgFrac	bgFrac
GAAGGA	11.7	478年	162年	464年	157年	3.0	0.0464	0.0157
TGGAGA	13.1	558年	175年	536年	167年	3.2	0.0536	0.0167

去词分析

生物过程中丰富目标基因

rca执行可以词浓缩分析找出丰富功能基因重叠区域查询。下面是演示了如何获得生物过程条件(“英国石油公司”)丰富的基因重叠查询区域和十大与大多数褶皱变化增加相对于背景。

#得到GTF的所有基因数据backgroundGenes < -独特的(人造石铺地面美元gene_id)#获取查询基因重叠区域targetedGenes < -独特的(重叠美元gene_id)#运行TopGOgoBP < -runTopGO(本体=“英国石油公司”,物种=“人类”,backgroundGenes =backgroundGenes,targetedGenes =targetedGenes)goBP < -goBP [订单(goBP美元foldEnrichment,减少=真正的),)rownames(goBP) < -goBP美元GO.IDgoBP < -子集(goBP选择=- - - - - -c(注释、classicFisher bh, GO.ID))knitr::kable(goBP [1:10,)

	术语	重要的	预期	bonferroni	foldEnrichment
去:0006403	RNA本地化	15	4.47	0.0011750	3.36
去:0006402	信使核糖核酸分解过程	27	8.73	0.0000007	3.09
去:0043488	信使rna稳定的监管	15	4.90	0.0069325	3.06
去:0015931	nucleobase-containing复合运输	16	5.32	0.0048175	3.01
去:0006401	核糖核酸分解过程	28	9.37	0.0000011	2.99
去:0043487	监管RNA稳定	15	5.11	0.0152750	2.94
去:0061013	信使rna分解过程的监管	15	5.32	0.0305500	2.82
去:1903311	信使rna代谢过程的调节	22	8.09	0.0008342	2.72
去:0006913	核质运输	17	6.60	0.0434750	2.58
去:0051169	核运输	17	6.60	0.0434750	2.58

基因集富集分析

MSIGDB基因集富集在目标基因

rca可以使用从数据库分子特征基因集,并计算基因集富集分析(GSEA)来找出哪些基因集富集基因中查询的目标区域。

下面我们展示GSEA例使用随机生成的基因集(为了不违反MSIGDB许可证协议)提供在rca内置数据。实际MSIGDB基因设置注释必须从MSIGDB用户下载的网站。rca提供函数来解析注解(rca: parseMsigdb通过orthology)并将它们映射到其他物种(rca: createOrthologousGeneSetList等其他物种),使GSEA老鼠和苍蝇。

# geneSets < - parseMsigdb (msigdbFile <路径>)数据(geneSets)resultsGSEA < -runGSEA(geneSetList =geneSets,backgroundGenes =backgroundGenes,targetedGenes =targetedGenes)knitr::kable(x =resultsGSEA [1:10,)

	治疗	treatmentSize	expectedInTreatment	fisherPVal	黑洞	bonferroni	foldEnrichment
randomGeneSet52	9	411年	3.5	0.0201899	0.628554	1	2.57
randomGeneSet16	8	411年	3.3	0.0370182	0.628554	1	2.42
randomGeneSet87	10	411年	4.3	0.0251697	0.628554	1	2.33
randomGeneSet99	7	411年	3.0	0.0550203	0.628554	1	2.33
randomGeneSet42	9	411年	4.0	0.0368588	0.628554	1	2.25
randomGeneSet8	7	411年	3.2	0.0664294	0.628554	1	2.19
randomGeneSet53	7	411年	3.2	0.0664294	0.628554	1	2.19
randomGeneSet11	10	411年	4.7	0.0360243	0.628554	1	2.13
randomGeneSet95	9	411年	4.3	0.0521195	0.628554	1	2.09
randomGeneSet13	4	411年	2.0	0.1851949	0.628554	1	2.00

rca还提供了函数映射MSIGDB注释从人类飞行和鼠标。

#解析人类注释refGeneSets < - parseMsigdb (filePath = MSIGDB注释文件<路径>)#基因集映射到其他物种使用#参考基因组同源基因之间的关系(人类)和目标基因(如鼠标)orthGeneSets < - createOrthologousGeneSetList (referenceGeneSetList = refGeneSets refGenomeVersion = hg19, targetGenomeVersion = mm9) #映射的基因集可用于GSEA分析使用runGSEA命令。

生成一个完整的报告

用户可以使用runReport()函数来生成完整的自定义报告包括所有上述分析模块。有四个主要部分的分析报告。

注释总结通过重叠操作
去词分析
MSIGDB分析
主题分析

默认情况下,runReport()函数的目的是运行在所有的四个模块,同时用户可以关闭这些单个模块。

下面是使用这些功能示例命令来生成报告。

人类的测试运行

runReport ()

一个定制的运行为人类

runReport (queryFilePath = '输入。床上,gffFilePath = '注释。gtf’, msigdbFilePath = ' human_msigdb.gmt”)

关闭报告的某些模块

runReport (queryFilePath = '输入。床上,gffFilePath = '注释。gtf human_msigdb, msigdbFilePath =。格林尼治时间”,motifAnalysis = FALSE, goAnalysis = FALSE)

运行的管道人类以外的物种

如果需要msigdb模块,必须设置为msigdbFilePath msigdb注释为“人类”。MSIGDB其他物种的数据集将在后台使用createOrthologousMsigdbDataset函数计算

runReport input.mm9 (queryFilePath =”。床上,gffFilePath = annotation.mm9。gtf human_msigdb, msigdbFilePath =。格林尼治时间”,genomeVersion = ' mm9”)

关闭详细输出和进度条

runReport(安静= TRUE)

印刷runReport函数生成的原始数据

可以打印原始数据用来制作感兴趣的情节和HTML报告中的表输出runReport函数。这些表可以用于多个分析结果的荟萃分析。为了激活此功能,printProcessedTables参数必须设置为TRUE。

runReport (printProcessedTables = TRUE)

确认

rca是发达的Altuna Akalin(科学的生物信息学平台)拉博拉Uyar(生物信息学的科学家),Dilmurat优素福(生物信息学科学家)和里卡多Wurmus(系统管理员)在柏林医学系统生物学研究所(BIMSB在分子医学Max-Delbrueck-Center ()争取民主变革运动在柏林)。

rca开发作为生物信息学服务的一部分RNA生物信息学中心,这是八个中心之一的德国生物信息学网络基础设施(de.NBI)。

以RNA为中心分析系统报告

拉Uyar Dilmurat优素福,里卡多Wurmus Altuna Akalin

2019-10-29

介绍