1安装

如果(!requireNamespace("BiocManager", quiet = TRUE)) install.packages("BiocManager")::install("SingleCellMultiModal")

2加载库

库(MultiAssayExperiment)库(SingleCellMultiModal)

3.ECCITE-seq数据集

ECCITE-seq数据是CITE-seq数据的演化CITE-seq装饰图案获取更多详细信息),方法是使用始终从同一单元提取的第三个数据类型扩展CITE-seq原始数据类型。事实上,除了CITE-seq提供scRNA-seq和抗体衍生标签(ADT)外,它还提供了大约10个Hashtagged Oligo (HTO)。这个数据集是由Mimitou等人(2019)

3.1下载数据集

用户可以通过CITE-seq函数使用默认选项查看可用数据集。

CITEseq(DataType="peripheral_blood", modes="*", dry.run=TRUE, version="1.0.0")
数据集:peripheral_blood
## snapshotDate(): 2022-04-19
## ah_id mode file_size rdataclass rdatadateadded rdatadateremoved ## 1 EH4613 CTCL_scADT 0.4 Mb matrix 2020-09-24  ## 2 EH4614 CTCL_scHTO 0.1 Mb matrix 2020-09-24  ## 3 EH4615 ctcl_sccrab 14.3 Mb data.frame 2020-09-24  ## 5 EH4617 CTCL_TCRgd 0.1 Mb data.frame 2020-09-24  ## 6 EH4618 CTRL_scADT 0.4 Mb matrix 2020-09-24  ## 8 EH4620 CTRL_scRNA 13.3 Mb dgCMatrix2020-09-24  ## 9 EH4621 CTRL_TCRab 0.2 Mb data.frame 2020-09-24  ## 10 EH4622 CTRL_TCRgd 0.1 Mb data.frame 2020-09-24  ## 9 EH4621 CTRL_TCRgd 0.1 Mb data.frame

或者简单地设置dry.run = FALSE它下载数据并在默认情况下创建MultiAssayExperiment对象。

在本例中,我们将使用两个可用数据集中的一个scADT_Counts

mae <- CITEseq(DataType="peripheral_blood", modes="*", dry.run=FALSE, version="1.0.0")
##警告:“实验者列表”包含“data.frame”或“DataFrame”,##混合数据类型的潜在错误##警告:“实验者列表”包含“data.frame”或“DataFrame”,##混合数据类型的潜在错误##警告:“实验者列表”包含“data.frame”或“DataFrame”,##混合数据类型的潜在错误##警告:“实验者列表”包含“data.frame”或“DataFrame”,##混合数据类型的潜在错误
MultiAssayExperiment对象,包含3个实验,用户自定义名称和各自的类。##包含长度为3的ExperimentList类对象## [1]scADT: dgCMatrix, 52行,13000列## [2]scHTO: dgCMatrix, 7行,13000列## [3]scRNA: dgCMatrix, 33538行,10248列##功能:## experiments() -获取ExperimentList实例## colData() -主/表型DataFrame ## sampleMap() -样本协调DataFrame ## ' $ ', '[', '[[' -提取colData列,子集,或实验## *格式()-转换为长或宽的DataFrame ## assays() -转换ExperimentList为矩阵的SimpleList ## exportClass() -保存数据到平面文件

实际数据示例:

实验(美)
## [1] scADT: dgCMatrix, 52行,13000列## [2]scHTO: dgCMatrix, 7行,13000列## [3]scRNA: dgCMatrix, 33538行,10248列

另外,我们存储到对象metedata中

3.2探索数据结构

检查行注释:

rownames(美)
[["scADT"]] B220 (CD45R) B7-H1 (PD-L1) C-kit (CD117)…no_match total_reads ## [["scHTO"]] HTO28_5P HTO29_5P HTO30_5P HTO44_5P bad_struct no_match total_reads ## [["scRNA"]] hg19_A1BG hg19_A1BG- as1 hg19_A1CF…hg19_ZZEF1 hg19_hsa - mir - 1253

看一看sampleMap

sampleMap(美)
##分析主colname ## <因子> <字符> <字符> ## 1 scADT CTCL_AAACCTGAGCTATGCT ## 2 scADT CTCL_AAACCTGCAATGGAGC ctcl_aaacctgcaatggag# 3 scADT CTCL_AAACCTGCATACTACG CTCL_AAACCTGCATATGGTC CTCL_AAACCTGCATATGGTC ## 5 scADT ctcl_aaacctgcatatgggt ctcl_aaacctgcatatgggt ## ... ... ... ...36245 scRNA CTRL_TTTGTCAGTCACCCAG ctrl_tttgtcagtcacccata CTRL_TTTGTCAGTGCAGGTA 36246 scRNA CTRL_TTTGTCATCACAATGC CTRL_TTTGTCATCCTAAGTG CTRL_TTTGTCATCGTTGACA CTRL_TTTGTCATCGTTGACA

3.3scRNA-seq数据

通过该名称可以访问scRNA-seq数据scRNAseq,该函数返回矩阵对象。

头(实验(mae) scRNA美元)[1:4]
6 x 4稀疏矩阵类“dgCMatrix”CTCL_AAACCTGCAATGGAGC CTCL_AAACCTGCATACTACG ctcl_aaacctgcatatggtc# # hg19_A1BG…## hg19_A1BG-AS1……………## hg19_A2M-AS1…## hg19_A2ML1…这是一个很好的例子。## hg19_A1BG-AS1。# 8226;## hg19_A2M。 ## hg19_A2M-AS1 . ## hg19_A2ML1 .

3.4scADT数据

可以通过名称访问scADT数据scADT,该函数返回矩阵对象。

头(实验(mae) scADT美元)[1:4]
## 6 x 4稀疏矩阵类“dgCMatrix”## CTCL_AAACCTGAGCTATGCT CTCL_AAACCTGCAATGGAGC ctcl_aaacctgcatactacg# # B220 (CD45R) 4## b7-h1 (pd-l1)3 ## C-kit (CD117) 5 23 ## CCR7 23 7 11 ## CD11b 4;11 ## CD11c 5 3 ## CTCL_AAACCTGCATATGGTC ## B220 (CD45R) 1 ## B7-H1 (PD-L1) 3 ## C-kit (CD117) 5 ## CCR7 18 ## CD11b 5 ## CD11c 3

3.5CTCL / CTRL条件

数据集有两种不同的条件(CTCL和CTRL),样本可以用colData访问器。

CTCL代表皮肤t细胞淋巴瘤,CTRL代表对照。

例如,如果我们只想要CTCL样本,我们可以运行:

(ctclMae <- mae[,colData(mae)$condition == "CTCL",])
MultiAssayExperiment对象,包含3个实验,用户自定义名称和各自的类。##包含长度为3的ExperimentList类对象:## [1]scADT: dgCMatrix, 52行,6500列## [2]scHTO: dgCMatrix, 7行,6500列## [3]scRNA: dgCMatrix, 33538行,5399列##功能:## experiments() -获取ExperimentList实例## colData() -主/表型DataFrame ## sampleMap() -样本协调DataFrame ## ' $ ', '[', '[[' -提取colData列,子集,或实验## *格式()-转换为长或宽的DataFrame ## assays() -转换ExperimentList为矩阵的SimpleList ## exportClass() -保存数据到平面文件

如果你对所有模式的通用样本感兴趣你可以用complete.cases函数。

ctclMae [complete.cases (ctclMae))
MultiAssayExperiment对象,包含3个实验,用户自定义名称和各自的类。##包含长度为3的ExperimentList类对象:## [1]scADT: dgCMatrix, 52行,4190列## [2]scHTO: dgCMatrix, 7行,4190列## [3]scRNA: dgCMatrix, 33538行,4190列##功能:## experiments() -获取ExperimentList实例## colData() -主/表型DataFrame ## sampleMap() -样本协调DataFrame ## ' $ ', '[', '[[' -提取colData列,子集,或实验## *格式()-转换为长或宽的DataFrame ## assays() -转换ExperimentList为矩阵的SimpleList ## exportClass() -保存数据到平面文件

3.6sgRNAs CRISPR摄动数据

CRISPR扰动scRNAs数据存储在不同的位置,以保持其原始的长格式。

可以使用元数据访问器,在本例中返回一个named列表data.frame年代。

sgRNAs <-元数据(mae)名称(sgRNAs)
## [1] "CTCL_TCRab" "CTCL_TCRgd" "CTRL_TCRab" "CTRL_TCRgd"

有四个不同的sgRNAs数据集,每个条件和家族受体组合一个。

TCR代表t细胞受体,而a,b,g,d分别代表alpha, beta, gamma和delta。

要查看TCRab,只需运行:

头(sgRNAs CTCL_TCRab美元)
# # 1 # #条形码is_cell contig_id high_confidence AAACCTGCAATGGAGC-1真AAACCTGCAATGGAGC-1_contig_1真AAACCTGGTCATACTG-1真AAACCTGGTCATACTG-1_contig_2真# # # # 100 AAAGTAGGTAAATACG-1真AAAGTAGGTAAATACG-1_contig_1真# # 1000 ACGGGCTTCGGCGCAT-1真ACGGGCTTCGGCGCAT-1_contig_2真# # # 1002 # 1001 ACGGGTCAGGACTGGT-1真的ACGGGTCAGGACTGGT-1_contig_1真的ACGGGTCAGGACTGGT-1真ACGGGTCAGGACTGGT-1_contig_2真# #长度链v_gene d_gene j_gene c_gene full_length生产# # 1609 TRB TRBV12-4 TRBD1 TRBJ2-7 TRBC2 False None ## 10 552 TRB TRBV5-5 TRBD1 TRBJ2-1 TRBC2 True True ## 100 556 TRA TRAV12-1 None TRAJ40 TRAC True True ## 1000 560 TRB TRBV20-1 None TRBJ2-1 TRBC2 True True ## 1001 669 TRB TRBV5-1 None TRBJ2-5 TRBC2 True True ## 1002 720 TRA TRAV8-1 None TRAJ22 TRAC True True ## cdr3 cdr3_nt reads ## 1 CASSLGAVGEQYF TGTGCCAGCAGTCTCGGGGCCGTCGGGGAGCAGTACTTC 4173 ## 10 CASSLLRVYEQFF TGTGCCAGCAGCTTACTCAGGGTTTATGAGCAGTTCTTC 5561 ## 100 CVVNMLIGPGTYKYIF TGTGTGGTGAACATGCTCATCGGCCCAGGAACCTACAAATACATCTTT 1725 ## 1000 CSARFLRGGYNEQFF TGCAGTGCTAGGTTCCTCCGGGGTGGCTACAATGAGCAGTTCTTC 8428 ## 1001 CASSPPGETQYF TGCGCCAGCAGTCCCCCGGGAGAGACCCAGTACTTC 27854 ## 1002 CAVNGAGSARQLTF TGTGCCGTGAATGGAGCTGGTTCTGCAAGGCAACTGACCTTT 6497 ## umis raw_clonotype_id raw_consensus_id ## 1 2 clonotype126 None ## 10 3 clonotype31 clonotype31_consensus_2 ## 100 1 clonotype3 clonotype3_consensus_2 ## 1000 6 clonotype2 clonotype2_consensus_2 ## 1001 17 clonotype289 clonotype289_consensus_2 ## 1002 4 clonotype289 clonotype289_consensus_1

4singlecel实验对象转换

因为已经大量使用了一些方法(如在[singlecel实验小插图][1]或[CiteFuse小插图][2]中SingleCellExperiment对象用于CITE-seq数据时,我们提供了一个转换CITE-seq的函数MultiAssayExperiment对象转换为SingleCellExperiment对象,scRNA-seq数据为计数,scADT数据为计数altExp年代。

sce <- CITEseq(DataType="peripheral_blood", modes="*", dry.run=FALSE, version="1.0.0", DataClass=" singlecel实验")
##警告:“实验者列表”包含“data.frame”或“DataFrame”,##混合数据类型的潜在错误##警告:“实验者列表”包含“data.frame”或“DataFrame”,##混合数据类型的潜在错误##警告:“实验者列表”包含“data.frame”或“DataFrame”,##混合数据类型的潜在错误##警告:“实验者列表”包含“data.frame”或“DataFrame”,##混合数据类型的潜在错误
南加州爱迪生公司
##类:singlecel实验## dim: 335388482 ##元数据(0):## assays(1):计数## rownames(33538): hg19_A1BG hg19_A1BG- as1…hg19_ZZEF1 ## hg19_hsa-mir-1253 ## rowData names(0): ## colnames(8482): CTCL_AAACCTGCAATGGAGC CTCL_AAACCTGCATACTACG…## ctrl_tttgtcattaagtg CTRL_TTTGTCATCGTTGACA ## colData names(0): ## reducedDimNames(0): ## mainExpName: NULL ## altExpNames(2): scADT scHTO

5会话信息

sessionInfo ()
## R版本4.2.0 RC (2022-04-19 r82224) ##平台:x86_64-pc-linux-gnu(64位)##运行在Ubuntu 20.04.4 LTS ## ##矩阵产品:默认## BLAS: /home/biocbuild/bbs-3.15-bioc/R/lib/libRblas。/home/biocbuild/bbs-3.15-bioc/R/lib/libRlapack。所以## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# # [3] LC_TIME=en_GB LC_COLLATE= c# # [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# # [9] LC_ADDRESS=C lc_phone = c# # [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基本包:## [1]stats4 stats graphics grDevices utils datasets methods ##[8]基础## ##其他附加包:[1] SingleCellMultiModal_1.8.0 MultiAssayExperiment_1.22.0 ## [3] SummarizedExperiment_1.26.0 Biobase_2.56.0 ## [5] GenomicRanges_1.48.0 GenomeInfoDb_1.32.0 ## [7] IRanges_2.30.0 S4Vectors_0.34.0 ## [9] BiocGenerics_0.42.0 MatrixGenerics_1.8.0 ## [11] matrixStats_0.62.0 BiocStyle_2.24.0 ## ##通过命名空间加载(并且没有附加):# # # # [1] bitops_1.0-7 bit64_4.0.5 [3] filelock_1.0.2 httr_1.4.2 # # [5] tools_4.2.0 bslib_0.3.1 # # [7] utf8_1.2.2 R6_2.5.1 # # [9] HDF5Array_1.24.0 DBI_1.1.2 # # [11] rhdf5filters_1.8.0 withr_2.5.0 # # [13] tidyselect_1.1.2 bit_4.0.4 # # [15] curl_4.3.2 compiler_4.2.0 # # [17] cli_3.3.0 formatR_1.12 # # [19] DelayedArray_0.22.0 bookdown_0.26 # # [21] sass_0.4.1 rappdirs_0.3.3 # # [23] stringr_1.4.0 digest_0.6.29 # # [25] SpatialExperiment_1.6.0 R.utils_2.11.0 # # [27] rmarkdown_2.14 XVector_0.36.0 # # [29]pkgconfig_2.0.3 htmltools_0.5.2 ## [31] sparseMatrixStats_1.8.0 limma_3.52.0 ## [33] dbplyr_2.1.1 fastmap_1.1.0 ## [35] rlang_1.0.2 RSQLite_2.2.12 ## [37] shiny_1.7.1 DelayedMatrixStats_1.18.0 ## [39] jquerylib_0.1.4 generics_0.1.2 ## [41] jsonlite_1.8.0 BiocParallel_1.30.0 ## [43] R.oo_1.24.0 dplyr_1.0.8 ## [45] RCurl_1.98-1.6 magrittr_2.0.3 ## [47] scuttle_1.6.0 GenomeInfoDbData_1.2.8 ## [49] Matrix_1.4-1 Rcpp_1.0.8.3 ## [51] Rhdf5lib_1.18.0 fansi_1.0.3 ## [53] R.methodsS3_1.8.1 lifecycle_1.0.1 ## [55] edgeR_3.38.0 stringi_1.7.6 ## [57] yaml_2.3.5 zlibbioc_1.42.0 ## [59] rhdf5_2.40.0 BiocFileCache_2.4.0 ## [61] AnnotationHub_3.4.0 grid_4.2.0 ## [63] blob_1.2.3 dqrng_0.3.0 ## [65] parallel_4.2.0 promises_1.2.0.1 ## [67] ExperimentHub_2.4.0 crayon_1.5.1 ## [69] lattice_0.20-45 beachmat_2.12.0 ## [71] Biostrings_2.64.0 KEGGREST_1.36.0 ## [73] magick_2.7.3 locfit_1.5-9.5 ## [75] knitr_1.39 pillar_1.7.0 ## [77] rjson_0.2.21 glue_1.6.2 ## [79] BiocVersion_3.15.2 evaluate_0.15 ## [81] BiocManager_1.30.17 vctrs_0.4.1 ## [83] png_0.1-7 httpuv_1.6.5 ## [85] purrr_0.3.4 assertthat_0.2.1 ## [87] cachem_1.0.6 xfun_0.30 ## [89] DropletUtils_1.16.0 mime_0.12 ## [91] xtable_1.8-4 later_1.3.0 ## [93] SingleCellExperiment_1.18.0 tibble_3.1.6 ## [95] AnnotationDbi_1.58.0 memoise_2.0.1 ## [97] ellipsis_0.3.2 interactiveDisplayBase_1.34.0

参考文献

Mimitou, Eleni P, Anthony Cheng, Antonino Montalbano, Stephanie Hao, Marlon Stoeckius, Mateusz Legut, Timothy Roush等。2019。单细胞中蛋白质、转录组、克隆型和Crispr扰动的多重检测自然方法16(5): 409-12。