1简介

我们介绍了PAIRADISE(配对复制分析等位基因差异剪接事件),一种从RNA-seq数据中检测等位基因特异性替代剪接(ASAS)的方法。PAIRADISE使用统计模型,在人群中多个个体之间聚集ASAS信号。它将ASAS检测描述为一个统计问题,用于从具有配对复制的RNA-seq数据中识别差异可选剪接。PAIRADISE统计模型适用于许多形式的等位基因特异性异构体变异(例如RNA编辑),并可作为涉及配对复制的RNA-seq研究的通用统计模型。详情如下:https://github.com/Xinglab/PAIRADISE

2安装

  1. 下载软件包。
如果(!requireNamespace("BiocManager", quiet = TRUE)) install.packages("BiocManager")::install("PAIRADISE")

开发版也可以从Github下载。

BiocManager:安装(“hubentu / PAIRADISE”)
  1. 将包加载到R会话中。
库(PAIRADISE)

3.PAIRADISE

3.1PDseDataSet

一个PDseDataSet类定义为存储拼接计数数据,并包含每个示例的包含计数和跳过计数。一个设计dataframe描述成对的样本信息。一个整数dataframe也需要包含和跳过长度。的PDseDataSet扩展了SummarizedExperiment类。所有函数SummarizedExperiment是继承而来的。

下面是一个构造PDseDataSet有2对样本。

库(abind) icount < -矩阵(1:4,1)scount <——矩阵(8,1)计算< - abind (icount, scount = 3)计算# >,,1 # > # > [1][2][3][4]# > [1]1 2 3 4  #> #> , , 2 # > # >[1][2][3][4] # >[1] 5 6 7 8设计<——data.frame(示例=代表(c (s1, s2), 2),组=代表(c(“T”、“N”),每个= 2))透镜< - data.frame (sLen = 1 l, iLen = 2 l) PDseDataSet(计算、设计、镜头)# >类:PDseDataSet # >暗:1 4 # >元数据(0):# >化验(1):计数# > rownames:零构成了rowData名字# > (2):sLen iLen #> colnames: NULL #> colData names(2):样本组

计数矩阵可以导入为PDseDataSet直接。

data("sample_dataset") sample_dataset #> ExonID I1 S1 I2 S2 I_len S_len #> 1外显子1 624,661,209 564,450,167 549,468,103 1261,767,325 180 90 #> 2外显子2 963,1139,388 1104,1100,330 1196,938,439 317,374,93 180 90 #> 3外显子3 15,17000,20,100 2,12,1,1,1,6,7,10 274,NA,320,5650 31 #> 4外显子4 3,5,9,9,11,29,3 33 1

PAIRADISE还包括来自Geuvadis和TCGA的两个小样本数据集:

数据(“sample_dataset_CEU”)的数据(“sample_dataset_LUSC”)

“sample_dataset_CEU”数据集是通过分析GEUVADIS CEU数据中的等位基因特异性可选剪接事件生成的。使用rPGA(版本2.0.0)将等位基因特定的读取映射到可选的剪接事件上。然后将映射到两个单倍型上的特定于等位基因的bam文件合并在一起,使用rMATS(3.2.5版)检测可选的剪接事件。第二个LUSC数据集是通过分析TCGA LUSC RNA-seq数据中的肿瘤与相邻对照样本而生成的。

数据的每一行都对应于一个不同的备选剪接事件。数据应该有7列。PAIRADISE的输入数据帧中7列的顺序遵循rMATS软件输出的约定,排列如下:

  1. 第1列包含可选剪接事件的ID。
  2. 列2包含与第一组相对应的亚型1的计数。
  3. 第3列是与第一组相对应的亚型2的计数。
  4. 第4列是与第二组相对应的亚型1的计数。
  5. 第5列是与第二组相对应的亚型2的计数。
  6. 第6列为亚型1的有效长度。
  7. 第7列为亚型2的有效长度。

将数据导入到PDseDataSet对象。

pdat <- PDseDataSetFromMat(sample_dataset) #>正在加载数据…pdat #> class: PDseDataSet #> dim: 4 8 #> metadata(0): #> assays(1): counts #> rownames(4):外显子1外显子2外显子3外显子4 #> rowData names(2): iLen sLen #> colnames(8): S1。T S2。T…S3。N S4。n# > colData names(2):样本组

3.2pairadise方法

pairadise函数实现了PAIRADISE统计模型PDseDataSet对象。多个处理器可以通过BiocParallel包中。函数返回一个PDseDataSet对象的统计估计rowData.下面是如何使用两个线程运行模型。

pairadise_output <- pairadise(pdat, numCluster = 2)

3.3输出

一个函数结果可用于计算p值和过滤显著性结果。例如,在FDR为0.01时,可以得到如下显著结果。

res <- results(pairadise_output, p.adj = "BH", sig.level = 0.01) res #> DataFrame with 3行3列#> testStats p.value p.adj #> <数字> <数字> <数字> #>外显子1 9.53535 0.002015512 0.00271869 #>外显子2 9.51407 0.002039020 0.00271869 #>外显子3 12.28430 0.000456784 0.00182714

详细信息= TRUE,可以返回更详细的统计估计。

res <- results(pairadise_output, details = TRUE) colnames(res) #> [1] "testStats" "p.value" "mu。”u“s1。”u“s2。”u“s.u“# >[7]“δ”“mu.c”“s1.c”“s2.c”“南”“totalIter“# >[13]“潜伏”“p.adj”res潜[3]# >美元潜伏# >[1][2][3]# >的形式。U 0.0.857902760 0.898534649 0.9396349874 #> psi2。U 0.001439371 0.006075626 0.0006442230 #> alpha。U 2.264036824 2.280592079 2.2753543207 #> psi1.c 0.824549049 0.878164621 0.9348575262 #> psi2.c 0.001352312 0.007337847 0.0005977598 #> alpha.c 1.556213823 1.975830313 2.6509171042

4SessionInfo

sessionInfo() #> R version 4.1.0(2021-05-18) #>平台:x86_64-pc-linux-gnu (64-bit) #>运行在:Ubuntu 20.04.2 LTS #> #>矩阵产品:默认#> BLAS: /home/biocbuild/bbs-3.13-bioc/R/lib/libRblas。所以#> LAPACK: /home/biocbuild/bbs-3.13-bioc/R/lib/libRlapack。so #> #> locale: #> [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# > [3] LC_TIME=en_GB LC_COLLATE= c# > [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 #> [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# > [9] LC_ADDRESS=C LC_TELEPHONE= c# > [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION= c# b> # b>附加基础包:#> [1]stats graphics grDevices utils datasets methods base #> #>其他附加包:#> [1]abind_1.4-5 PAIRADISE_1.8.0 nloptr_1.2.2.2 BiocStyle_2.20.0 #> #>通过命名空间加载(且未附加):# > [1] bslib_0.2.5.1 compiler_4.1.0 # > [3] BiocManager_1.30.15 jquerylib_0.1.4 # > [5] GenomeInfoDb_1.28.0 XVector_0.32.0 # > [7] MatrixGenerics_1.4.0 bitops_1.0-7 # > [9] tools_4.1.0 zlibbioc_1.38.0 # > [11] digest_0.6.27 lattice_0.20-44 # > [13] jsonlite_1.7.2 evaluate_0.14 # > [15] rlang_0.4.11 Matrix_1.3-3 # > [17] DelayedArray_0.18.0 yaml_2.2.1 # > [19] parallel_4.1.0 xfun_0.23 # > [21] GenomeInfoDbData_1.2.6 stringr_1.4.0 # > [23] knitr_1.33 S4Vectors_0.30.0 # > [25] sass_0.4.0 IRanges_2.26.0 # > [27]grid_4.1.0 stats4_4.1.0 #> [29] Biobase_2.52.0 R6_2.5.0 #> [31] BiocParallel_1.26.0 rmarkdown_2.8 #> [33] bookdown_0.22 magrittr_2.0.1 #> [35] htmltools_0.5.1.1 matrixStats_0.58.0 #> [37] BiocGenerics_0.38.0 GenomicRanges_1.44.0 #> [39] SummarizedExperiment_1.22.0 stringi_1.6.2 #> [41] RCurl_1.98-1.3