1简介

TENxPBMCData包提供R/Bioconductor用于表示和操作9种不同的外周血单个核细胞(PBMC)上的单细胞RNA-seq (scRNA-seq)和CITE-seq数据集的资源10倍基因组学

  1. pbmc68k
  2. frozen_pbmc_donor_a
  3. frozen_pbmc_donor_b
  4. frozen_pbmc_donor_c
  5. pbmc33k
  6. pbmc3k
  7. pbmc6k
  8. pbmc4k
  9. pbmc8k
  10. pbmc5k-CITEseq

这个数字在数据集标题大概是实验中的细胞数量。

这个包充分利用了HDF5Array包以避免将整个数据集加载到内存中,而是将计数作为HDF5文件存储在磁盘上,并根据请求将数据的子集加载到内存中。

注意:这个包的目的是提供测试和示例数据Bioconductor包。我们没有对“过滤”的10X scRNA-RNA或CITE-seq数据进行处理;它是按原样交付的。

2工作流程

2.1加载数据

我们使用TENxPBMCData函数来下载相关文件Bioconductor的ExperimentHub网络资源。这包括包含计数的HDF5文件,以及行(基因)和列(单元格)上的元数据。输出为单个SingleCellExperiment对象的SingleCellExperiment包中。它等价于aSummarizedExperiment类,但具有许多特定于单单元数据的特性。

library(TENxPBMCData) tenx_pbmc4k <- TENxPBMCData(dataset = "pbmc4k"
##类:singlecel实验## dim: 33694 4340 ##元数据(0):## assays(1):计数## rownames(33694): ENSG00000243485 ENSG00000237613…ENSG00000277475 ## ENSG00000268674 ## rowData names(3): ENSEMBL_ID Symbol_TENx Symbol ## colnames: NULL ## colData names(11): Sample Barcode…## mainExpName: NULL ## altExpNames(0):

注意:某些用户可能特别感兴趣的是pbmc68k数据集的大小。

第一次调用TENxPBMCData ()由于需要下载一些中等大小的文件,可能需要一些时间。然后将这些文件存储在本地,以便相同或新会话中的后续调用能够快速进行。使用数据集参数选择要下载的数据集;值通过函数定义可见:

args (TENxPBMCData)
##函数(dataset = c("pbmc4k", "pbmc68k", "frozen_pbmc_donor_a", ## "frozen_pbmc_donor_b", "frozen_pbmc_donor_c", "pbmc33k", ## "pbmc3k", "pbmc6k", "pbmc8k", "pbmc5k-CITEseq"),作为。稀疏= TRUE) ## NULL

计数矩阵本身表示为aDelayedMatrixDelayedArray包中。这将底层HDF5文件包装在一个可以用r进行操作的容器中,每个计数表示分配给特定细胞中特定基因的唯一分子标识符(UMIs)的数量。

计数(tenx_pbmc4k)
## <33694 x 4340>稀疏矩阵类DelayedMatrix和类型“integer”:##[,1][,2][,3][,4]…[,4337] [,4338] [,4339] ## ensg00000243485 0000 .]000 ## ensg00000237613 0000。000 ## ensg00000186092 0000。000 ## ensg00000238009 0000。000 ## ensg00000239945 0000。0 0 0 ## ... ... ... ..## ensg00000277856 0000。000 ## ensg00000275063 0000。000 ## ensg00000271254 00000。 0 0 0 ## ENSG00000277475 0 0 0 0 . 0 0 0 ## ENSG00000268674 0 0 0 0 . 0 0 0 ## [,4340] ## ENSG00000243485 0 ## ENSG00000237613 0 ## ENSG00000186092 0 ## ENSG00000238009 0 ## ENSG00000239945 0 ## ... . ## ENSG00000277856 0 ## ENSG00000275063 0 ## ENSG00000271254 0 ## ENSG00000277475 0 ## ENSG00000268674 0

2.2探索数据

为了快速浏览数据集,我们在计数矩阵上计算一些汇总统计信息。我们告诉DelayedArray块大小,表明我们可以使用最多1gb的内存从磁盘加载数据到内存。

选项(DelayedArray.block.size = 1 e9)

我们对图书馆的大小感兴趣colSums(计数(tenx_pbmc4k)),每个细胞表达的基因数量colsum (counts(tenx_pbmc4k) != 0),以及细胞间的平均表达rowMeans(计数(tenx_pbmc4k)).天真的实现可能是

自由。n.exprs <- colsum (counts(tenx_pbmc4k) != 0L) ave.exprs <- rowMeans(counts(tenx_pbmc4k))

更先进的分析程序在各种Bioconductor软件包-请参阅SingleCellbiocViews获取更多详细信息。

2.3节约计算

保存tenx_pbmc4k对象以标准的方式,例如,

destination <- tempfile() saveRDS(tenx_pbmc4k, file = destination)

保存行数据、列数据和元数据为R对象,并记住从该对象派生的HDF5文件的位置和子集。对象可以读入newR会话readRDS(目的地),只要HDF5文件保留在原始位置。

2.4CITE-seq数据集

对于CITE-seq数据集,转录组数据和抗体捕获数据均可从单个数据集获得SingleCellExperiment对象。虽然转录组数据可以直接访问如上所述,抗体捕获数据应访问altExp函数。同样,结果计数矩阵表示为aDelayedMatrix

tenx_pbmc5k_CITEseq <- TENxPBMCData(dataset = "pbmc5k-CITEseq") counts(altExp(tenx_pbmc5k_CITEseq))
## <32 x 5247>稀疏矩阵类DelayedMatrix和类型“integer”:##[,1][,2][,3][,4]…[,5244] [,5245] [,5246] [,5247] ## cd3 25 959 942 802。402 401 6 1773 ## cd4 164 720 1647 1666。1417 1 46 1903 ## CD8a 16 8 21 5。8 222 3 9 ## CD11b 3011 12 11 11。15 7 1027 9 ## cd14 696 12 13 9。9 17 382 8 ## ... ... ... ...## hla-dr 573 15 11 19。6 40 184 32 ## tigit 10 3 3 3。2 15 1 12 ## IgG1 4 4 2 4。 1 0 2 4 ## IgG2a 1 3 0 6 . 4 0 4 2 ## IgG2b 6 2 4 8 . 0 0 2 5

3.会话信息

sessionInfo ()
## R版本4.1.0(2021-05-18)##平台:x86_64-pc-linux-gnu(64位)##运行在:Ubuntu 20.04.2 LTS ## ##矩阵产品:默认## BLAS: /home/biocbuild/bbs-3.13-bioc/R/lib/libRblas。所以## LAPACK: /home/biocbuild/bbs-3.13-bioc/R/lib/libRlapack。所以## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# # [3] LC_TIME=en_US。UTF-8 LC_COLLATE= c# # [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# # [9] LC_ADDRESS=C lc_phone = c# # [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基本包:##[1]并行stats4统计图形grDevices utils数据集##[8]方法基础## ##其他附加包:[1] TENxPBMCData_1.10.0 HDF5Array_1.20.0 ## [5] Matrix_1.3-3 SingleCellExperiment_1.14.0 ## [7] SummarizedExperiment_1.22.0 Biobase_2.52.0 ## [9] GenomicRanges_1.44.0 GenomeInfoDb_1.28.0 ## [11] IRanges_2.26.0 S4Vectors_0.30.0 ## [13] BiocGenerics_0.38.0 MatrixGenerics_1.4.0 ## [17] matrixStats_0.58.0 knitr_1.33 ## [17] BiocStyle_2.20.0 ## ##通过命名空间加载(并且没有附加):# # # # [1] httr_1.4.2 sass_0.4.0 [3] bit64_4.0.5 jsonlite_1.7.2 # # [5] AnnotationHub_3.0.0 bslib_0.2.5.1 # # [7] shiny_1.6.0 assertthat_0.2.1 # # [9] interactiveDisplayBase_1.30.0 BiocManager_1.30.15 # # [11] BiocFileCache_2.0.0 blob_1.2.1 # # [13] GenomeInfoDbData_1.2.6 yaml_2.2.1 # # [15] BiocVersion_3.13.1 pillar_1.6.1 # # [17] RSQLite_2.2.7 lattice_0.20-44 # # [19] glue_1.4.2 digest_0.6.27 # # [21] promises_1.2.0.1 XVector_0.32.0 # # [23] httpuv_1.6.1 htmltools_0.5.1.1 # # [25] pkgconfig_2.0.3[39] crayon_1.4.1 memoise_2.0.0 ## [41] evaluate_0.14 fansi_0.4.2 ## [43] tools_4.1.0 lifecycle_1.0.0 ## [45] string_1 .4.0 Rhdf5lib_1.14.0 ## [47] Biostrings_2.60.0 annotationdbi_1.54 ## [49] compiler_4.1.0 jquerylib_0.1.4 ## [51] rlang_0.4.11 grid_4.1.0 ## [53][61] r6_2 .1.0 dplyr_1.0.6 ## [65] utf8_1.2.1 filelock_1.0.2 ## [67] stringi_1.6.2 Rcpp_1.0.6 ## [69] png_0.1-7 vctrs_0.3.8 ## [71] dbplyr_2.1.1 tidyselect_1.1.1 ## # [73] xfun_0.23