biomaRt 2.52.0
近年来大量的生物数据变得可用的公共数据存储库。容易获得这些宝贵的数据资源和公司集成与数据分析需要综合生物信息学数据分析。的biomaRt方案,提供了一个接口实现的数据库BioMart软件套件。包使检索大量的数据以统一的方式,而不需要了解底层数据库模式或写复杂的SQL查询。BioMart数据库是运用的例子,Uniprot和人类基因组单体型图。这些主要的数据库给biomaRt用户直接访问一组不同的数据,使各种强大的在线查询从R。
有少数non-Ensembl数据库提供BioMart接口数据。的biomaRt包可以用来访问这些非常相似的方式来运用。大多数的biomaRt函数将以同样的方式工作,但最初的集市对象的建设需要稍微设置。在本节中,我们将演示设置需要查询Wormbase寄生虫和Phytozome。首先我们需要加载biomaRt。
库(biomaRt)
演示的使用biomaRt包与non-Ensembl数据库执行下一个查询使用Wormbase寄生虫BioMart。在这个例子中,我们使用listMarts ()
函数来找到可用的名称集市,鉴于Wormbase的URL。我们使用这个连接Wormbase BioMart使用useMart ()
函数。1注意,我们使用https
地址和必须提供港口443年
。查询WormBase没有这些选项将会失败。
listMarts(主机= " parasite.wormbase.org ")
# # 1 # # biomart版本parasite_mart WBPS 16集市
wormbase < - useMart (biomart =“parasite_mart”,主机= " https://parasite.wormbase.org ",端口= 443)
我们可以使用先前描述的功能在这个插曲寻找和选择基因数据集,并打印前6可用属性和过滤器。然后我们使用关联的基因名称过滤和检索列表记录id和成绩单生物型。
listDatasets (wormbase)
# # # #数据集描述版本1 wbps_gene所有物种(WBPS16) 16
wormbase < - useDataset(集市= wormbase,数据集=“wbps_gene”)负责人(listFilters (wormbase))
# # # # 1 # # species_id_1010基因组2名称描述nematode_clade_1010线虫进化枝# # 3 chromosome_name染色体的名字# # 4开始开始# # 5结束结束# # 6链链
头(listAttributes (wormbase))
页# # 1 # #名称描述species_id_key内部名称feature_page # # 2 production_name_1010基因组计划feature_page # # 3 display_name_1010基因组名字feature_page # # 4 taxonomy_id_1010分类ID feature_page # # 5 assembly_accession_1010大会加入feature_page # # 6 nematode_clade_1010线虫进化枝feature_page
getBM(属性= c (“external_gene_id”、“wbps_transcript_id”、“transcript_biotype”),过滤器=“gene_name”,值= c (“unc-26”、“his-33”),集市= wormbase)
# # 1 # # external_gene_id wbps_transcript_id transcript_biotype his-33 F17E9.13.1 protein_coding # # 2 unc-26 JC8.10a。1 protein_coding # # 3 unc-26 JC8.10b。1 protein_coding # # 4 unc-26 JC8.10c。1 protein_coding # # 5 unc-26 JC8.10d。1 protein_coding
Phytozome 12 BioMart退休2021年8月,不能再访问。
Phyotozome 13版本可以在https://phytozome-next.jgi.doe.gov/找到,如果你想查询版本URL用于创建集市对象必须反映这一点。
phytozome_v13 < - useMart (biomart =“phytozome_mart”数据集=“phytozome”,主机= " https://phytozome-next.jgi.doe.gov ")
一旦这是通常的设置的biomaRt函数可以用来查询数据库的选择和运行查询。
getBM(属性= c (“organism_name”、“gene_name1”),过滤器=“gene_name_filter”,值= " 82092 ",集市= phytozome_v13)
# # 1 # # organism_name gene_name1 Smoellendorffii_v1.0 82092
sessionInfo ()
# # R版本4.2.0 RC (2022-04-19 r82224) # #平台:x86_64-pc-linux-gnu(64位)# #下运行:Ubuntu 20.04.4 LTS # # # #矩阵产品:默认# #布拉斯特区:/home/biocbuild/bbs - 3.15 - bioc / R / lib / libRblas。所以# # LAPACK: /home/biocbuild/bbs - 3.15 - bioc / R / lib / libRlapack。# # # #语言环境:# # [1]LC_CTYPE = en_US。utf - 8 LC_NUMERIC = C而= en_GB # # [4] LC_COLLATE = C LC_MONETARY = en_US。utf - 8 LC_MESSAGES = en_US。utf - 8 # # [7] LC_PAPER = en_US。utf - 8 LC_NAME C = C LC_ADDRESS = # # [10] LC_TELEPHONE = C LC_MEASUREMENT = en_US。utf - 8 LC_IDENTIFICATION = C附加基本包:# # # # # #[1]统计图形grDevices跑龙套数据集方法基础# # # #其他附加包:# # [1]biomaRt_2.52.0 BiocStyle_2.24.0 # # # #通过加载一个名称空间(而不是附加):# # [1]Rcpp_1.0.8.3 prettyunits_1.1.1 png_0.1-7 Biostrings_2.64.0 # # [5] assertthat_0.2.1 digest_0.6.29 utf8_1.2.2 BiocFileCache_2.4.0 # # [9] R6_2.5.1 GenomeInfoDb_1.32.0 stats4_4.2.0 RSQLite_2.2.12 # # [13] evaluate_0.15 highr_0.9 httr_1.4.2 pillar_1.7.0 # # [17] zlibbioc_1.42.0 rlang_1.0.2 progress_1.2.2 curl_4.3.2 # # [21] jquerylib_0.1.4 blob_1.2.3 S4Vectors_0.34.0 rmarkdown_2.14 # # [25] stringr_1.4.0 rcurl_1.98 - 1.6 bit_4.0.4 compiler_4.2.0 # # [29] xfun_0.30 pkgconfig_2.0.3 BiocGenerics_0.42.0 htmltools_0.5.2 # # [33] tidyselect_1.1.2 KEGGREST_1.36.0 tibble_3.1.6 GenomeInfoDbData_1.2.8 # # [37] bookdown_0.26 codetools_0.2-18 IRanges_2.30.0 xml_3.99 - 0.9 # # [41] fansi_1.0.3 withr_2.5.0 crayon_1.5.1 dplyr_1.0.8 # # [45] dbplyr_2.1.1 bitops_1.0-7 rappdirs_0.3.3 jsonlite_1.8.0 # # [49] lifecycle_1.0.1 DBI_1.1.2 magrittr_2.0.3 cli_3.3.0 # # [53] stringi_1.7.6 cachem_1.0.6 XVector_0.36.0 xml2_1.3.3 # # [57] bslib_0.3.1 ellipsis_0.3.2 filelock_1.0.2 vctrs_0.4.1 # # [61] generics_0.1.2 tools_4.2.0 bit64_4.0.5 Biobase_2.56.0 # # [65] glue_1.6.2 purrr_0.3.4 hms_1.1.1 fastmap_1.1.0 # # [69] yaml_2.3.5 AnnotationDbi_1.58.0 BiocManager_1.30.17 memoise_2.0.1 # # [73] knitr_1.38 sass_0.4.1
警告()