我们引入PAIRADISE(成对等位基因的复制分析微分剪接事件),一种方法检测allele-specific可变剪接从RNA-seq数据(研究)。PAIRADISE骨料使用一个统计模型,研究在人群中多个个体的信号。它制定研究检测作为识别的统计问题微分可变剪接与配对RNA-seq数据复制。PAIRADISE统计模型适用于许多形式的allele-specific同种型变化(例如RNA编辑),并且可以作为一个通用的统计模型RNA-seq研究涉及配对复制。更多细节可以发现:https://github.com/Xinglab/PAIRADISE
如果(!requireNamespace (“BiocManager”,悄悄地= TRUE)) install.packages (“BiocManager”) BiocManager::安装(“PAIRADISE”)
开发版本也可以从Github下载。
BiocManager:安装(“hubentu / PAIRADISE”)
库(PAIRADISE)
一个PDseDataSet
类是定义存储拼接计数数据,并且包含包容和跳过数量为每个样本。一个设计dataframe
需要描述成对样本信息。一个整数dataframe
包容和跳过的长度也是必需的。的PDseDataSet
扩展了SummarizedExperiment
类。所有功能SummarizedExperiment
是继承而来的。
这里有一个例子来构造一个PDseDataSet
2双样品。
库(abind) icount < -矩阵(1:4,1)scount <——矩阵(8,1)计算< - abind (icount, scount = 3)计算# >,,1 # > # >[1][2][3][4]# >[1]1 2 3 4 # > # >,,2 # > # >[1][2][3][4]# >[1]5 6 7 8设计<——data.frame(示例=代表(c (s1, s2), 2),组=代表(c (“T”、“N”),每个= 2))透镜< - data.frame (sLen = 1 l, iLen = 2 l) PDseDataSet(计算、设计、镜头)# >类:PDseDataSet # >暗:1 4 # >元数据(0):# >化验(1):计数# > rownames:零构成了rowData名称(2):# > sLen iLen # > colnames:零# > colData名称(2):样本组
数矩阵可以作为进口PDseDataSet
直接。
数据(sample_dataset) sample_dataset # > ExonID I1和I2 S2 S1 I_len S_len # > 1外显子1 624661209 564450167 549468103 1261,767325 180 90 # > 2外显子2 963年,1139年,388 1104,1100,330 1196,938439 317374,93 180 90 # > 3外显子3 15,17000年,20100年2、12、1、1、6、7,10 274年,NA, 320年,5650 3 1 # > 4外显子4 3、5、9 13日27日4 5、9、9 11日29日3 3 1
从Geuvadis PAIRADISE还包括两个小样本数据集,TCGA:
数据(“sample_dataset_CEU”)的数据(“sample_dataset_LUSC”)
“sample_dataset_CEU”数据集生成通过分析allele-specific GEUVADIS CEU可变剪接事件数据。使用rPGA Allele-specific读取被映射到可变剪接事件(2.0.0版本)。然后allele-specific bam文件映射到两个单合并在一起,以发现可变剪接事件使用rMATS(3.2.5版本)。第二LUSC生成数据集通过分析肿瘤与邻近的控制样本,TCGA LUSC RNA-seq数据。
每一行的数据对应一个不同的可变剪接事件。应该有7列的数据。7的顺序列在输入输出的数据帧PAIRADISE遵循公约的rMATS软件,安排如下:
导入数据PDseDataSet
对象。
pdat < - PDseDataSetFromMat (sample_dataset) # >加载数据…pdat # >类:PDseDataSet # >暗:4 8 # >元数据(0):# >化验(1):计数# > rownames(4):外显子1外显子2外显子3外显子4 #构成了rowData名称> (2):iLen sLen # > colnames (8): S1。T S2。T…S3。N S4。N # > colData名称(2):样本组
pairadise
方法的pairadise
函数实现了PAIRADISE统计模型PDseDataSet
对象。多个处理器可以通过使用BiocParallel
包中。函数返回一个PDseDataSet
与统计估计的对象rowData
。这是如何与2线程运行模型。
pairadise_output < - pairadise (pdat numCluster = 2)
一个函数结果
可以用来计算p值和过滤的重要结果。例如,结果显著的罗斯福0.01可以获得如下。
res (pairadise_output p < -结果。disorderly =“黑洞”,sig.level = 0.01) res # > DataFrame 3行3列# > testStats p。值p。的# > <数字> <数字> <数字> # >外显子1 9.53535 0.002015512 0.00271869 # # > >外显子2 9.51407 0.002039020 0.00271869 12.28430 0.000456784 0.00182714外显子3
与详细信息= TRUE
更详细的统计估计,可以返回。
res < -结果(pairadise_output细节= TRUE) colnames (res) # > [1]“testStats”“p。”“μ值。”u“s1。”u“s2。u”。u“# >[7]“δ”“μ。c”“s1。c”“s2。c”“s。c”“totalIter”# >[13]“潜伏”“p。的“res潜[3]# >美元潜伏# >[1][2][3]# >的形式。你0.857902760 0.898534649 0.9396349874 # > psi2。你0.001439371 0.006075626 0.0006442230 # >α。你2.264036824 2.280592079 2.2753543207 # >的形式。c 0.824549049 0.878164621 0.9348575262 # > psi2。c 0.001352312 0.007337847 0.0005977598 # >α。c 1.556213823 1.975830313 2.6509171042
sessionInfo() #平台4.1.0 (2021-05-18)# > > R版本:x86_64-pc-linux-gnu(64位)# >下运行:Ubuntu 20.04.2 LTS # > # >矩阵产品:默认# >布拉斯特区:/home/biocbuild/bbs - 3.13 - bioc / R / lib / libRblas。所以# > LAPACK: /home/biocbuild/bbs - 3.13 - bioc / R / lib / libRlapack。所以# > # >语言环境:# > [1]LC_CTYPE = en_US。utf - 8 LC_NUMERIC c# = >[3]而= en_GB LC_COLLATE = c# > [5] LC_MONETARY = en_US。utf - 8 LC_MESSAGES = en_US。utf - 8 # > [7] LC_PAPER = en_US。utf - 8 LC_NAME c# = > [9] LC_ADDRESS = C LC_TELEPHONE = C # > [11] LC_MEASUREMENT = en_US。utf - 8 LC_IDENTIFICATION = C # > # >附加基本包:# >[1]统计图形grDevices跑龙套数据集方法基础# > # >其他附加包:# > [1]abind_1.4-5 PAIRADISE_1.8.0 nloptr_1.2.2.2 BiocStyle_2.20.0 # > # >加载通过名称空间(而不是附加):# > [1]bslib_0.2.5.1 compiler_4.1.0 # > [3] BiocManager_1.30.15 jquerylib_0.1.4 # > [5] GenomeInfoDb_1.28.0 XVector_0.32.0 # > [7] MatrixGenerics_1.4.0 bitops_1.0-7 # > [9] tools_4.1.0 zlibbioc_1.38.0 # > [11] digest_0.6.27 lattice_0.20-44 # > [13] jsonlite_1.7.2 evaluate_0.14 # > [15] rlang_0.4.11 Matrix_1.3-3 # > [17] DelayedArray_0.18.0 yaml_2.2.1 # > [19] parallel_4.1.0 xfun_0.23 # > [21] GenomeInfoDbData_1.2.6 stringr_1.4.0 # > [23] knitr_1.33 S4Vectors_0.30.0 # > [25] sass_0.4.0 IRanges_2.26.0 # > [27] grid_4.1.0 stats4_4.1.0 # > [29] Biobase_2.52.0 R6_2.5.0 # > [31] BiocParallel_1.26.0 rmarkdown_2.8 # > [33] bookdown_0.22 magrittr_2.0.1 # > [35] htmltools_0.5.1.1 matrixStats_0.58.0 # > [37] BiocGenerics_0.38.0 GenomicRanges_1.44.0 # > [39] SummarizedExperiment_1.22.0 stringi_1.6.2 # > [41] rcurl_1.98 - 1.3