以RNA为中心分析系统报告

拉Uyar Dilmurat优素福,里卡多Wurmus Altuna Akalin

2019-10-29

图书馆(rca)

警告:在这个描述,由于空间限制,我们演示rca的功能使用静态图像。为了从rca看起来看到看到一个交互式报告rca: runReport ()

最先进的功能,使用和安装说明,,看到我们的示例输出github库在这里

介绍

rca动态基因组注释是一个自动化系统,它提供了自定义输入文件包含转录组的地区。转录组区域,例如,峰值区域检测到CLIP-Seq分析检测protein-RNA交互,RNA的修改(别名epitranscriptome), CAGE-tag地点,或任何其他的目标区域在转录组水平。

rca设计为rna结合站点的功能分析的报表工具检测到高通量实验。需要床格式作为输入文件包含基因组RNA结合位点和GTF的坐标文件,其中包含通常提供的基因组注释功能如运用和UCSC的公开可用的数据库。rca执行重叠操作RNA基因组坐标之间的结合位点和基因注释特性和产生深入注释总结等结合位点的分布对记录功能(外显子、内含子5‘/ 3’UTR区域,exon-intron边界,启动子区域,和全记录)。此外,通过探测目标的收集记录,rca可以进行功能注释表丰富基因集(带注释的分子签名数据库)条款。作为一个最重要的问题,在protein-RNA交互分析期间出现;rca模块检测序列图案丰富的转录组的目标区域。rca的最终报告由高质量的动态数据和表,这很容易适用于出版物或者其他学术用途。

数据输入

rca最低限度要求文件和一个GTF文件作为输入一个床。床上文件应该包含坐标/间隔通过转录组的转录组地区位于Clip-Seq等方法。GTF文件应该提供参考注释。推荐的GTF源文件系综数据库。

装饰图案,为了演示rca功能,我们使用样品床和GTF内置rca库的数据,也可以使用一个共同的进口R功能:数据()。导入自定义床和GTF文件,用户应该执行两个rca函数称为importBed()和importGtf ()。

导入示例数据

导入自定义数据

使用importBed()和importGtf(),用户应提供文件路径文件和GTF文件各自的床上。减少内存使用量和时间消耗,我们建议用户设置sampleN = 10000为了避免巨大的间隔输入。

总结查询区域的重叠与基因组注释功能

查询注释文件

扩展注释特征空间

GTF文件包含一些注释功能(如外显子、成绩单),通常是明确定义,然而,一些文字记录功能如内含子,exon-intron边界,启动子区域只有隐式定义。这种隐含的特征可以从家庭使用makeTxDb GTF文件中提取GenomicFeatures的函数库。

首先我们创建一个农庄组织对象的列表,每个列表元素包含所有可用的坐标记录的功能,如成绩单、外显子,内含子,5‘/ 3’utr exon-intron边界,和启动子区域。

获得一个表查询区域和基因之间的重叠计数

找出哪些基因重叠与多少查询和分类重叠记录功能;我们使用getTargetedGenesTable函数,它返回一个data.frame对象。

tx_name 成绩单 外显子 启动子 fiveUTRs 内含子 cd threeUTRs
ENST00000317713 33 28 0 0 5 24 4
ENST00000361689 33 28 0 0 5 24 4
ENST00000372915 33 28 0 0 5 24 4
ENST00000539005 33 28 0 0 5 24 4
ENST00000545844 33 28 0 0 5 24 4
ENST00000564288 33 28 0 0 5 24 4
ENST00000567887 33 28 0 0 5 24 4
ENST00000372925 28 23 0 0 5 19 4
ENST00000289893 27 22 0 0 5 18 4
ENST00000367142 14 14 0 0 0 3 12

分析查询地区的报道记录功能

覆盖查询区域特性的边界

它可能是有用的在查询区域的分布看成绩单的边界特征。例如,它可能是重要的相对信号记录末端(转录起始站点和转录结束网站)。或者,它可能是重要的信号是如何分布的外显子边界,这可能会给一个想法记录的有关规定。这里我们将演示如何得到这样的信号分布在转录起始/结束网站。同样的方法可以做任何其他记录的集合特性(外显子、内含子、启动子、utr等。)

覆盖配置文件查询区域的所有记录功能

报道资料可以获得一个类型的记录特性或记录的列表功能。这里我们将演示如何得到覆盖配置文件查询地区所有可用的记录功能。这可能是一个好主意使用sampleN参数随机downsample目标区域加快计算速度。

使用motifRG主题分析

计算丰富的图案

rca包,一个主题分析也是可能的。rca使用motifRG库中找到丰富主题查询区域。

1.769472 # # GAAGGA e-06 ATTTTT # # # #跳过模式提炼GAAGGA 11.70585: 11.78265 12.53327 11.24818 11.6384 10.93289 478 162 464 157 # #新主题:GAAGGA # #匹配范围637 # #[1]”改“# #[1]“完成改”# # TGGAGA 3.713046 e-06 TTTTTA # # # #跳过模式提炼TGGAGA 12.97348: 11.80649 12.57438 13.59972 12.5562 13.74099 551 173 530 165 # #新主题:TGGAGA

主题分析:主题摘要统计信息

从主题分析结果汇总表

模式 分数 fgHits bgHits fgSeq bgSeq fgFrac bgFrac
GAAGGA 11.7 478年 162年 464年 157年 3.0 0.0464 0.0157
TGGAGA 13.1 558年 175年 536年 167年 3.2 0.0536 0.0167

去词分析

生物过程中丰富目标基因

rca执行可以词浓缩分析找出丰富功能基因重叠区域查询。下面是演示了如何获得生物过程条件(“英国石油公司”)丰富的基因重叠查询区域和十大与大多数褶皱变化增加相对于背景。

术语 重要的 预期 bonferroni foldEnrichment
去:0006403 RNA本地化 15 4.47 0.0011750 3.36
去:0006402 信使核糖核酸分解过程 27 8.73 0.0000007 3.09
去:0043488 信使rna稳定的监管 15 4.90 0.0069325 3.06
去:0015931 nucleobase-containing复合运输 16 5.32 0.0048175 3.01
去:0006401 核糖核酸分解过程 28 9.37 0.0000011 2.99
去:0043487 监管RNA稳定 15 5.11 0.0152750 2.94
去:0061013 信使rna分解过程的监管 15 5.32 0.0305500 2.82
去:1903311 信使rna代谢过程的调节 22 8.09 0.0008342 2.72
去:0006913 核质运输 17 6.60 0.0434750 2.58
去:0051169 核运输 17 6.60 0.0434750 2.58

基因集富集分析

MSIGDB基因集富集在目标基因

rca可以使用从数据库分子特征基因集,并计算基因集富集分析(GSEA)来找出哪些基因集富集基因中查询的目标区域。

下面我们展示GSEA例使用随机生成的基因集(为了不违反MSIGDB许可证协议)提供在rca内置数据。实际MSIGDB基因设置注释必须从MSIGDB用户下载的网站。rca提供函数来解析注解(rca: parseMsigdb通过orthology)并将它们映射到其他物种(rca: createOrthologousGeneSetList等其他物种),使GSEA老鼠和苍蝇。

治疗 treatmentSize expectedInTreatment fisherPVal 黑洞 bonferroni foldEnrichment
randomGeneSet52 9 411年 3.5 0.0201899 0.628554 1 2.57
randomGeneSet16 8 411年 3.3 0.0370182 0.628554 1 2.42
randomGeneSet87 10 411年 4.3 0.0251697 0.628554 1 2.33
randomGeneSet99 7 411年 3.0 0.0550203 0.628554 1 2.33
randomGeneSet42 9 411年 4.0 0.0368588 0.628554 1 2.25
randomGeneSet8 7 411年 3.2 0.0664294 0.628554 1 2.19
randomGeneSet53 7 411年 3.2 0.0664294 0.628554 1 2.19
randomGeneSet11 10 411年 4.7 0.0360243 0.628554 1 2.13
randomGeneSet95 9 411年 4.3 0.0521195 0.628554 1 2.09
randomGeneSet13 4 411年 2.0 0.1851949 0.628554 1 2.00

rca还提供了函数映射MSIGDB注释从人类飞行和鼠标。

#解析人类注释refGeneSets < - parseMsigdb (filePath = MSIGDB注释文件<路径>)#基因集映射到其他物种使用#参考基因组同源基因之间的关系(人类)和目标基因(如鼠标)orthGeneSets < - createOrthologousGeneSetList (referenceGeneSetList = refGeneSets refGenomeVersion = hg19, targetGenomeVersion = mm9) #映射的基因集可用于GSEA分析使用runGSEA命令。

生成一个完整的报告

用户可以使用runReport()函数来生成完整的自定义报告包括所有上述分析模块。有四个主要部分的分析报告。

默认情况下,runReport()函数的目的是运行在所有的四个模块,同时用户可以关闭这些单个模块。

下面是使用这些功能示例命令来生成报告。

人类的测试运行

runReport ()

一个定制的运行为人类

runReport (queryFilePath = '输入。床上,gffFilePath = '注释。gtf’, msigdbFilePath = ' human_msigdb.gmt”)

关闭报告的某些模块

runReport (queryFilePath = '输入。床上,gffFilePath = '注释。gtf human_msigdb, msigdbFilePath =。格林尼治时间”,motifAnalysis = FALSE, goAnalysis = FALSE)

运行的管道人类以外的物种

如果需要msigdb模块,必须设置为msigdbFilePath msigdb注释为“人类”。MSIGDB其他物种的数据集将在后台使用createOrthologousMsigdbDataset函数计算

runReport input.mm9 (queryFilePath =”。床上,gffFilePath = annotation.mm9。gtf human_msigdb, msigdbFilePath =。格林尼治时间”,genomeVersion = ' mm9”)

关闭详细输出和进度条

runReport(安静= TRUE)

印刷runReport函数生成的原始数据

可以打印原始数据用来制作感兴趣的情节和HTML报告中的表输出runReport函数。这些表可以用于多个分析结果的荟萃分析。为了激活此功能,printProcessedTables参数必须设置为TRUE。

runReport (printProcessedTables = TRUE)

确认

rca是发达的Altuna Akalin(科学的生物信息学平台)拉博拉Uyar(生物信息学的科学家),Dilmurat优素福(生物信息学科学家)和里卡多Wurmus(系统管理员)在柏林医学系统生物学研究所(BIMSB在分子医学Max-Delbrueck-Center ()争取民主变革运动在柏林)。

rca开发作为生物信息学服务的一部分RNA生物信息学中心,这是八个中心之一的德国生物信息学网络基础设施(de.NBI)。