1可用的数据集

TENxVisiumData包提供了R/Bioconductor资源由10X Genomics提供的Visium空间基因表达数据集.该软件包目前包括来自两种生物(人类和小鼠)的23个样本和13个组织的13个数据集:

方法可以获得当前可用数据集的列表ExperimentHub接口:

library(ExperimentHub) eh <- ExperimentHub() (q <- query(eh, "TENxVisium"))
## ExperimentHub与26条记录## # snapshotDate(): 2022-10-24 ## $dataprovider: 10X Genomics ## # $物种:Homo sapiens, Mus musculus ## # $rdataclass: SpatialExperiment ## #附加mcols():taxonomyid, genome, description, ## # coordinate_1_based, maintainer, rdatadateadded, preparerclass, tags, ## # rdatapath, sourceurl, sourcetype ## #检索记录,例如,'object[["EH6695"]]]]' ## ## title ## EH6695 |人类乳腺癌idc ## EH6696 |人类乳腺癌ilc# # EH6697 |人类小脑## EH6698 |人类结直肠癌## EH6699 |人类胶质母细胞瘤## ... ...## EH6741 | MouseBrainSagittalPosterior_v3.13 ## EH6742 | mousebrainsagittalfronior_v3.13 ## EH6743 | MouseKidneyCoronal_v3.13 ## EH6743

2加载数据

要检索数据集,可以使用数据集对应的命名函数<标识> (),在那里<标识>应该对应一个有效的数据集标识符(参见TENxVisiumData ?).例如:

库(TENxVisiumData) spe <- HumanHeart()

或者,数据可以直接从Bioconductor的加载ExerimentHub如下。首先,我们初始化一个集线器实例,并将完整的记录列表存储在一个变量中.使用查询(),我们便会识别由TENxVisiumData包,以及他们的接入id (EH1234)。最后,我们可以通过将数据加载到R中嗯[[id]],在那里id对应于我们想要加载的数据条目的标识符。例如:

library(ExperimentHub) eh <- ExperimentHub() #初始化hub实例q <- query(eh, "TENxVisium") #检索'TENxVisiumData'记录id <- q$ah_id[1] #指定数据集id来加载spe <- eh[[id]] #加载指定的数据集

3.数据表示

每个数据集都作为SpatialExperiment(SPE),扩展了SingleCellExperiment(SCE)类,具有特定于空间解析数据的特征:

spe
##类:SpatialExperiment ## dim: 36601 7785 ##元数据(0):## assays(1): counts ## rownames(36601): ENSG00000243485 ENSG00000237613…ENSG00000278817 ## ENSG00000277196 ##行数据名称(1):符号## colnames(7785): AAACAAGTATCTCCCA-1 AAACACCAATAACTGC-1…## TTGTTTGTATTACACG-1 TTGTTTGTGTAAATTC-1 ## colData names(1): sample_id ## reducedDimNames(0): ## mainExpName: NULL ## altExpNames(0): ## spatialCoords names(2): pxl_col_in_fullres pxl_row_in_fullres ## imgData names(4): sample_id image_id data scaleFactor

有关SPE类的详细信息,请参阅软件包的小插图。简单地说,SPE除了存储在SCE中的数据外,还存储了以下数据:

spatialCoords;空间坐标的数值矩阵,存储在对象的空间坐标中int_colData

头(spatialCoords (spe))
## aaacagagctccca -1 15937 17428 ## AAACACCAATAACTGC-1 18054 6092 ## AAACAGAGCGACTCCT-1 7383 16351 ## aaacagggtctatat -1 15202 5278 ## AAACAGTGTTCCTGGG-1 21386 9363 ## aaacatttcccggat -1 18549 16740

spatialData;一个DFrame空间相关的样例元数据,作为对象的一部分存储colData.这colData子集又由int_metadataspatialDataNames

头(spatialData (spe))
## 6行0列的数据框架

imgData;一个DFrame包含图像相关的数据,存储在int_metadata

imgData (spe)
##数据帧2行4列## sample_id image_id数据scaleFactor ## <字符> <字符> <列表> <数字> ## 1 HumanBreastCancerIDC1 lowres #### 0.0247525 ## 2 HumanBreastCancerIDC2 lowres #### 0.0247525

具有多个部分的数据集被合并到单个SPE中colDatasample_id标明每个点的样品来源。例如:

- mousebrainsagittalfront()表(spe$sample_id)
## ## MouseBrainSagittalAnterior1 MouseBrainSagittalAnterior2 ## 2695 2825

目标分析的数据集提供作为嵌套的SPE,以整个转录组测量值为主要数据,从目标组中获得的转录组测量值为altExp年代。例如:

spe <- HumanOvarianCancer() altExpNames(spe)
## [1] "TargetedImmunology" "TargetedPanCancer"

会话信息

sessionInfo ()
## R版本4.2.1(2022-06-23)##平台:x86_64-pc-linux-gnu(64位)##运行在Ubuntu 20.04.5 LTS ## ##矩阵产品:默认## BLAS: /home/biocbuild/bbs-3.16-bioc/R/lib/libRblas。/home/biocbuild/bbs-3.16-bioc/R/lib/libRlapack。所以## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# # [3] LC_TIME=en_GB LC_COLLATE= c# # [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# # [9] LC_ADDRESS=C lc_phone = c# # [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基本包:## [1]stats4 stats graphics grDevices utils datasets methods ##[8]基础## ##其他附加包:# # # # [1] TENxVisiumData_1.6.0 SpatialExperiment_1.8.0 [3] SingleCellExperiment_1.20.0 SummarizedExperiment_1.28.0 # # [5] Biobase_2.58.0 GenomicRanges_1.50.0 # # [7] GenomeInfoDb_1.34.0 IRanges_2.32.0 # # [9] S4Vectors_0.36.0 MatrixGenerics_1.10.0 # # [11] matrixStats_0.62.0 ExperimentHub_2.6.0 # # [13] AnnotationHub_3.6.0 BiocFileCache_2.6.0 # # [15] dbplyr_2.2.1 BiocGenerics_0.44.0 # # [17] BiocStyle_2.26.0 # # # #通过加载一个名称空间(而不是附加):# # # # [1] bitops_1.0-7 bit64_4.0.5 [3] filelock_1.0.2 httr_1.4.4 # # [5] tools_4.2.1 bslib_0.4.0 # # [7] utf8_1.2.2 R6_2.5.1 # # [9] HDF5Array_1.26.0 DBI_1.1.3 # # [11] rhdf5filters_1.10.0 withr_2.5.0 # # [13] tidyselect_1.2.0 bit_4.0.4 # # [15] curl_4.3.3 compiler_4.2.1 # # [17] cli_3.4.1 DelayedArray_0.24.0 # # [19] bookdown_0.29 sass_0.4.2 # # [21] rappdirs_0.3.3 stringr_1.4.1 # # [23] digest_0.6.30 rmarkdown_2.17 # # [25] R.utils_2.12.1 XVector_0.38.0 # # [27] pkgconfig_2.0.3 htmltools_0.5.3 # # [29]sparseMatrixStats_1.10.0 limma_3.54.0 # # [31] fastmap_1.1.0 rlang_1.0.6 # # [33] RSQLite_2.2.18 shiny_1.7.3 # # [35] DelayedMatrixStats_1.20.0 jquerylib_0.1.4 # # [37] generics_0.1.3 jsonlite_1.8.3 # # [39] BiocParallel_1.32.0 R.oo_1.25.0 # # [41] dplyr_1.0.10 rcurl_1.98 - 1.9 # # [43] magrittr_2.0.3 scuttle_1.8.0 # # [45] GenomeInfoDbData_1.2.9 Matrix_1.5-1 # # [47] Rcpp_1.0.9 Rhdf5lib_1.20.0 # # [49] fansi_1.0.3 lifecycle_1.0.3 # # [51] R.methodsS3_1.8.2 edgeR_3.40.0 # # [53] stringi_1.7.8 yaml_2.3.6 # #[55] zlibbioc_1.44.0 rhdf5_2.42.0 ## [57] grid_4.2.1 blob_1.2.3 ## [59] dqrng_0.3.0 parallel_4.2.1 ## [61] lattice_0.20-45 beachmat_2.14.0 ## [65] Biostrings_2.66.0 KEGGREST_1.38.0 ## [67] magick_2.7.3 locfit_1.5-9.6 ## [69] knitr_1.40 pillar_1.8.1 ## [71] rjson_0.2.21 codetools_0.2-18 ## [73] glue_1.6.2 BiocVersion_3.16.0 ## [75] evaluate_0.17 BiocManager_1.30.19 ## [77] png_0.1-7 vctrs_0.5.0 ## [79] httpuv_1.6.6 purrr_0.3.5 ## [81] assertthat_0.2.1cachem_1.0.6 ## [83] xfun_0.34 DropletUtils_1.18.0 ## [85] mime_0.12 xtable_1.8-4 ## [87] later_1.3.0 tibble_3.1.8 ## [89] AnnotationDbi_1.60.0 memoise_2.0.1 ## [91] ellipsis_0.3.2 interactiveDisplayBase_1.36.0