内容

ExperimentHub服务器提供简单的R /生物导体访问大型数据文件。

1ExperimentHub对象

ExperimentHub包为存储在ExperimentHub web服务中的资源提供了一个客户端接口。它有类似的功能AnnotationHub包中。

库(ExperimentHub)

ExperimentHub软件包使用简单明了。创建一个ExperiemntHub对象

eh = ExperimentHub()
## snapshotDate(): 2019-04-29

现在,您已经完成了开始检索实验数据所需的所有工作。对于大多数操作,使用ExperimentHub对象应该感觉很像与熟悉的对象一起工作列表data.frame并且具有an的所有功能中心对象就像AnnotationHub包的AnnotationHub对象。

让我们花一分钟时间来看看hub对象的show方法

##实验者与2223条记录## #快照日期():2019-04-29 ## $dataprovider: Eli and Edythe L. Broad Institute of Harvard and MIT, NA…## # $物种:智人,小家鼠,酿酒酵母,人类g…$rdataclass: ExpressionSet, SummarizedExperiment, SummarizedBenchmark,…## #附加mcols(): taxonomyid,基因组,描述,## # coordinate_1_based, maintainer, rdatadateadded,准备类,## #标签,rdatapath, sourceurl, sourcetype ## #检索记录,例如,'object[["EH1"]]]' ## ## title ## EH1 | rna -测序和临床数据7706肿瘤样本从…## eh166 | err188297 ## eh167 | err188088 ## eh168 | err188204 ## eh169 | err188317 ## ... ...| SKCM_GISTIC_ThresholdedByGene-20160128 ## EH2541 | SKCM_GISTIC_AllByGene-20160128 ## EH2542 | SKCM_GISTIC_ThresholdedByGene-20160128 ##

您可以看到,它让您了解了集线器中存在的不同类型的数据。您可以看到数据来自哪里(dataprovider),以及哪些物种有样本(species),可以返回什么类型的R数据对象(rdataclass)。我们可以通过简单地查看dataprovider的内容来仔细查看所有可用的数据提供程序,就像它是data.frame对象的列一样:

(独特的(嗯dataprovider美元))
“GEUVADIS”“Allen Brain Atlas”“ArrayExpress”“心理系,Abdul Haq校区,联邦乌尔都艺术,科学和技术大学,巴基斯坦卡拉奇。shahiq_psy@yahoo.com“##[6]”化学与生物工程系,查尔姆斯理工大学,SE-412 96哥德堡,瑞典。”

同样地,通过查看物种的内容,你也可以看到枢纽内不同物种的数据,就像这样:

(独特的(嗯物种美元))
“智人”“小家鼠”“小家鼠(E18小鼠)”“褐家鼠”“人类肠道宏基因组”

这也适用于任何其他类型的元数据。键入' eh$ '后,只需按tab键,就可以了解哪些元数据可用。通过这种方式,您可以直接从命令行探索集线器中显示的数据类型。该接口还允许您以编程方式访问集线器,以提取符合特定标准集的数据。

要注意的另一种有价值的元数据类型是rdata类。

(独特的(嗯rdataclass美元))
## [1] "ExpressionSet" "GAlignmentPairs" ## [3] "CellMapperList" "gds.class" " rangedsummarize实验" "GRanges"

rdata类允许您查看hub将返回给您的R对象的哪种类型。这类信息是很有价值的,既可以作为筛选结果的手段,也可以作为探索和了解项目中广泛可用的某些实验对象的手段。现在这是一个非常短的列表,但是随着时间的推移,它会随着我们通过hub支持更多不同类型的experimenthub对象而增长。

现在让我们尝试获取与r Biocpkg(“alpineData”)使用查询方法打包。查询方法允许在行中搜索特定字符串,返回ExperimentHub实例,只使用与查询匹配的行。的preparerclass元数据列监视哪个包与ExperimentHub数据相关联。

你可以通过以下方式从UCSC获得黑腹果蝇的链文件:

apData <- query(eh, "alpineData") apData
## ExperimentHub与4条记录## # snapshotDate(): 2019-04-29 ## $dataprovider: GEUVADIS ## # $species: Homo sapiens ## # $rdataclass: GAlignmentPairs ## # additional mcols(): taxonomyid, genome, description, ## # coordinate_1_based, maintainer, rdatadateadded, preparerclass, ## # tags, rdatapath, sourceurl, sourcetype ## #检索记录,例如,'object[["EH166"]]]' ## ## title ## EH166 | ERR188297 ## EH167 | ERR188088 ## EH168 | ERR188204 ## EH169 | ERR188317

查询已经工作,现在可以看到唯一的数据是由“alpineData”提供的。

您可以检索这个中心对象下的元数据

apData preparerclass美元
##[1]“alpineData”“alpineData”“alpineData”“alpineData”“alpineData”“alpineData”
df <- mcols(apData)

默认情况下,show方法只显示前5行和后5行。中心中有数百条记录。

长度(嗯)
## [1] 2223

让我们看另一个例子,我们只从中心提取物种“小家鼠”的数据。

Mm <- query(eh, "mus musculus") Mm
## ExperimentHub 135条记录## # snapshotDate(): 2019-04-29 ## $dataprovider: NCBI GEO, Robinson组(UZH),征服数据库,10X Ge…## # $物种:小家鼠,小家鼠(E18小鼠)## # $rdataclass: character, data.frame, singlecel实验,SummarizedBen…## #附加mcols(): taxonomyid,基因组,描述,## # coordinate_1_based, maintainer, rdatadateadded, prepareclass, ## #标签,rdatapath, sourceurl, sourcetype ## #检索记录,例如,'object[["EH173"]]]' ## ## title ## EH173 |预处理微阵列数据从Affymetrix MG-U74Av2 p…Brain scRNA-seq数据,'HDF5-based 10X Genomics'格式## ... ...# EH2361 | mouse-benchmark-wilcox-det ## EH2362 | mouse-benchmark-wilcox-mean ## EH2438 | Sala19_2vs2

我们也可以看看ExperimentHub对象在浏览器中使用显示()函数。然后我们可以过滤ExperimentHub对象使用页面右上角的全局搜索字段或列内搜索字段。

D <- display(eh)

2使用ExperimentHub检索数据

回顾我们的alpineData文件示例,如果我们对第一个文件感兴趣,我们可以使用

apData
## ExperimentHub与4条记录## # snapshotDate(): 2019-04-29 ## $dataprovider: GEUVADIS ## # $species: Homo sapiens ## # $rdataclass: GAlignmentPairs ## # additional mcols(): taxonomyid, genome, description, ## # coordinate_1_based, maintainer, rdatadateadded, preparerclass, ## # tags, rdatapath, sourceurl, sourcetype ## #检索记录,例如,'object[["EH166"]]]' ## ## title ## EH166 | ERR188297 ## EH167 | ERR188088 ## EH168 | ERR188204 ## EH169 | ERR188317
apData(“EH166”)
# # # # # ExperimentHub 1记录snapshotDate(): 2019-04-29 # # #名称():EH166 # # #包():alpineData # # # $ dataprovider: GEUVADIS # # # $物种:智人# # # $ rdataclass: GAlignmentPairs # # # $ rdatadateadded: 2016-07-21 # # # $标题:ERR188297 # # # $描述:对齐读取的样本子集ERR188297 # # # $ taxonomyid: # # # 9606基因组:GRCh38 # # # $ sourcetype: FASTQ # # # $ sourceurl: ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR188/ERR188297/ERR1882..。## # $sourcesize: NA ## # $tags: c(“测序”,“RNASeq”,“基因表达”,## #“转录”)## #检索记录与对象[[“EH166”]]]'

我们可以使用下载文件

apData [[" EH166 "]]
##参见?alpineData和browseVignettes('alpineData')获取文档
##下载0个资源
##从缓存中加载EH166: 166
# # GAlignmentPairs对象与25531双,strandMode = 1和0元数据列:# # seqnames链:范围,范围# # < Rle > < Rle >: < IRanges >, < IRanges > # #[1] 1 +: 108560389 - 108560463 - 108560454 - 108560528 # #[2]: 1 - 108560454 - 108560528 - 108560383 - 108560457 # #[3] 1 +: 108560534 - 108600608 - 108600626 - 108606236 # #[4]: 1 - 108569920 - 108569994 - 108569825 - 108569899 # #[5] 1 -: 108587954——108588028——108588028——108587954  ## ... ... ... ... ... ... ...[25527] X +: 119790596-119790670—119790717-119790791 ## [25528]X +: 119790988-119791062—119791086-119791160 ## [25529]X +: 119791337 -119791111—119791142-119791216 ## [25530]X +: 119791348-119791422—119791475-119791549 ## [25531]X +: 119791376-119791450—119791481-119791555 ## ------- ## seqinfo: 194个来自未指定基因组的序列

每个文件都是从ExperimentHub服务器检索的,文件也在本地缓存,因此下次需要检索它时,它的下载速度应该快得多。

3.配置ExperimentHub对象

当您创建ExperimentHub对象,它将用一些默认设置为您设置对象。看到ExperimentHub ?有关自定义集线器源、本地缓存和其他特定于实例的选项的方法和getExperimentHubOption ?获取或设置跨会话使用的包全局选项。

如果查看该对象,您将看到一些有关它的有用信息,例如数据缓存在哪里以及集线器服务器设置在哪里。

##实验者与2223条记录## #快照日期():2019-04-29 ## $dataprovider: Eli and Edythe L. Broad Institute of Harvard and MIT, NA…## # $物种:智人,小家鼠,酿酒酵母,人类g…$rdataclass: ExpressionSet, SummarizedExperiment, SummarizedBenchmark,…## #附加mcols(): taxonomyid,基因组,描述,## # coordinate_1_based, maintainer, rdatadateadded,准备类,## #标签,rdatapath, sourceurl, sourcetype ## #检索记录,例如,'object[["EH1"]]]' ## ## title ## EH1 | rna -测序和临床数据7706肿瘤样本从…## eh166 | err188297 ## eh167 | err188088 ## eh168 | err188204 ## eh169 | err188317 ## ... ...| SKCM_GISTIC_ThresholdedByGene-20160128 ## EH2541 | SKCM_GISTIC_AllByGene-20160128 ## EH2542 | SKCM_GISTIC_ThresholdedByGene-20160128 ##

默认情况下ExperimentHub对象已设置为最新snapshotData的版本匹配的快照版本Bioconductor你正在使用的。您还可以使用适当的方法了解这些数据。

snapshotDate(嗯)
##[1]“2019-04-29”

如果对使用快照的旧版本感兴趣,可以使用possibleDates ()是这样的:

pd <-可能日期(eh) pd
# #[1]“2016-02-23”“2016-06-07”“2016-07-14”“2016-07-21”“2016-08-08”# #[6]“2016-10-01”“2017-06-09”“2017-08-25”“2017-10-06”“2017-10-10”# #[11]“2017-10-12”“2017-10-16”“2017-10-19”“2017-10-26”“2017-10-30”# #[16]“2017-10-29”“2018-01-08”“2018-02-02”“2018-02-09”“2018-02-22”# #[21]“2018-03-16”“2018-03-30”“2018-04-02”“2018-04-10”“2018-04-20”# #[26]“2018-04-25”“2018-04-26”“2018-04-27”“2018-05-02”“2018-05-08”# #[31]“2018-06-29”“2018-07-30”“2018-08-02”“2018-08-03”“2018-08-27”# #[36]“2018-08-29”“2018-09-07”“2018-09-11”“2018-09-19”“2018-09-20”# #[41]“2018-10-30”“2018-11-02”“2018-11-05”“2018-11-13”“2018-12-12”# #[46]“2018-12-13”“2018-12-19”“2018-12-20”“2019-01-02”“2019-01-04”# #[51]“2019-01-09”“2019-01-15”“2019-01-25”“2019-03-21”“2019-04-01”# #[56]“2019-04-15”“2019-04-23”“2019-04-24”“2019-04-25”“2019-04-26”# #[61]“2019-04-29”“2019-04-29”

像这样设置日期:

snapshotDate(ah) <- pd[1]

4ExperimentHub

5会话信息

sessionInfo ()
## R版本3.6.0(2019-04-26)##平台:x86_64-pc-linux-gnu(64位)##运行在Ubuntu 18.04.2 LTS下## ##矩阵产品:默认## BLAS: /home/biocbuild/bbs-3.9-bioc/R/lib/libRblas。/home/biocbuild/bbs-3.9-bioc/R/lib/libRlapack。所以## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# # [3] LC_TIME=en_US。UTF-8 LC_COLLATE= c# # [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# # [9] LC_ADDRESS=C lc_phone = c# # [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基本包:## [1]stats4并行统计图形grDevices utils数据集##[8]方法基础## ##其他附加包:# # # # [1] alpineData_1.9.0 GenomicAlignments_1.20.0 [3] Rsamtools_2.0.0 Biostrings_2.52.0 # # [5] XVector_0.24.0 SummarizedExperiment_1.14.0 # # [7] DelayedArray_0.10.0 BiocParallel_1.18.0 # # [9] matrixStats_0.54.0 Biobase_2.44.0 # # [11] GenomicRanges_1.36.0 GenomeInfoDb_1.20.0 # # [13] IRanges_2.18.0 S4Vectors_0.22.0 # # [15] ExperimentHub_1.10.0 AnnotationHub_2.16.0 # # [17] BiocFileCache_1.8.0 dbplyr_1.4.0 # # [19] BiocGenerics_0.30.0 BiocStyle_2.12.0 # # # #加载(而不是通过一个名称空间附):## [1] Rcpp_1.0.1 lattice_0.20-38 ## [3] assertthat_0.2.1 digest_0.6.18 ## [7] RSQLite_2.1.1 evaluate_0.13 ## [9] httr_1.4.0 pillar_1.3.1 ## [11] zlibbioc_1.30.0 rlang_0.3.4 ## [13] curl_3.3 blob_1.1.1 ## [15] Matrix_1.2-17 rmarkdown_1.12 ## [17] string_1 .4.0 RCurl_1.95-4.12 ## [19] bit_1. 1.1-14 shiny_1.3.2 ## [25] htmltools_0.3.6 tidyselect_0.2.5 ## [27] tibble_2.1.1 GenomeInfoDbData_1.2.1 ## [29][39] magrittr_1. 1.5 dbi_1 .4.3 ## [43] bit64_0.9-7 glue_1.3.1 ## [45] purrr_0.3.2 yaml_2.2.0 ## [47] memoise_1.1.0 knitr_1.22 ## [49] memoise_1.1.0 knitr_1.22 ## [39] rappdirs_0.3.1 grid_3.6.0 ## [39] xtable_1.8-4 dbii_1 .4.3 ## [41] promises_1.0.1 tools_3.6.0 ## [43] bit64_0.9-7 glue_1.3.1 ## [45]