rpx 2.8.0
的目标rpx包是提供从R编程访问蛋白质组学数据,特别是ProteomeXchange (防御率J.A. et al, 2014年中央存储库(见)http://www.proteomexchange.org/和http://central.proteomexchange.org/)。额外的存储库在未来可能会被添加。
中央处理数据访问对象是PXDataset
(版本2)类。这样的一个实例可以通过生成一个有效的标识符的PX实验PXDataset ()
构造函数。
图书馆(rpx) id < -“PXD000001 px < - PXDataset (id)
# #从缓存加载PXD000001。
px
# # # #项目PXD000001有11个文件
# #资源ID BFC82 /home/biocbuild/.cache/R/rpx.缓存
# # F063721 [1]。dat的……erwinia_carotovora [11]。fasta' ## Use 'pxfiles(.)' to see all files.
可以从几个属性PXDataset
项目,如下所述。
最初的实验标识符,用于创建项目可以提取pxid ()
方法:
pxid(像素)
# # [1]“PXD000001”
数据文件的文件传输url可以可以查询与访问pxurl ()
方法:
pxurl(像素)
# # [1]“ftp://ftp.pride.ebi.ac.uk/pride/data/archive/2012/03/PXD000001”
该物种数据生成数据可以得到调用pxtax ()
功能:
pxtax(像素)
# # [1]“Erwinia carotovora”
可以查询的相关书目引用pxref ()
方法:
strwrap (pxref (px))
# #[1]”与L Christoforou;使用R和Bioconductor蛋白质组学数据分析“# # [2]”。,Biochim Biophys学报,2013年5月18日,“# #”[3]doi: 10.1016 / j.bbapap.2013.04.032 PMID: 23692960”
所有文件可用的PX试验可以获得的pxfiles
方法:
pxfiles(像素)
# #项目PXD000001文件(11):# #(远程)F063721。dat # #(本地)F063721.dat-mztab。txt # #(远程)PRIDE_Exp_Complete_Ac_22134.xml。广州# #(远程)PRIDE_Exp_mzData_Ac_22134.xml。广州# #(远程)PXD000001_mztab。txt # #(远程)自述。txt # #(本地)tmt_erwinia_1ulsike_top10hcd_isol2_45stepped_60min_01 - 20141210。mzML # #(远程)tmt_erwinia_1ulsike_top10hcd_isol2_45stepped_60min_01 - 20141210。mzXML # #(本地)TMT_Erwinia_1uLSike_Top10HCD_isol2_45stepped_60min_01。mzXML # #(远程)TMT_Erwinia_1uLSike_Top10HCD_isol2_45stepped_60min_01。生# #……
完全或部分数据集可以与下载pxget ()
函数。函数接受一个项目实例作为第一个强制参数。
下一个参数,列表
,下载指定文件。如果丢失,打印菜单,用户可以选择一个文件。如果设置为“所有”
,实验的所有文件下载。多个文件名,指数或逻辑值也可以用来下载特定的文件。
f < - pxget (px,“F063721.dat-mztab.txt”)
# #加载F063721.dat-mztab。txt从缓存中。
f
# # [1]“/ home / biocbuild / .cache / R / rpx / 9 a36f388a954a_f063721.dat-mztab.txt”
的rpx
包使用BiocFileCache包,以避免反复节目下载数据。当PXDataset
创建项目并和项目文件被下载,它们存储在包的中央或一个用户定义的缓存。下次项目实例化PXDataset ()
或一个项目文件下载pxget ()
,现有的文物将从缓存检索,而不是创建/从远程服务器下载。看到rpxCache ?
对缓存的详细信息。
下面,我们从PXD000001下载fasta文件数据集和负载Biostrings包。
fas < - grep (“fasta pxfiles (px)值= TRUE)
# #项目PXD000001文件(11):# #(远程)F063721。dat # #(本地)F063721.dat-mztab。txt # #(远程)PRIDE_Exp_Complete_Ac_22134.xml。广州# #(远程)PRIDE_Exp_mzData_Ac_22134.xml。广州# #(远程)PXD000001_mztab。txt # #(远程)自述。txt # #(本地)tmt_erwinia_1ulsike_top10hcd_isol2_45stepped_60min_01 - 20141210。mzML # #(远程)tmt_erwinia_1ulsike_top10hcd_isol2_45stepped_60min_01 - 20141210。mzXML # #(本地)TMT_Erwinia_1uLSike_Top10HCD_isol2_45stepped_60min_01。mzXML # #(远程)TMT_Erwinia_1uLSike_Top10HCD_isol2_45stepped_60min_01。生# #……
fas
# # [1]“erwinia_carotovora.fasta”
f < - pxget (px, fas) # #文件中可用rpx缓存
# #加载erwinia_carotovora。fasta从缓存中。
f
# # [1]“/ home / biocbuild / .cache / R / rpx / 9 a36f45bb44b1_erwinia_carotovora.fasta”
库(Biostrings) readAAStringSet (f)
# # AAStringSet对象长度4499:# #宽度seq名字# # [1]147 MADITLISGSTLGSAEYVAEHL…QHQIPEDPAEEWLGSWVNLLK ECA0001假定的……# # [2]153 VAEIYQIDNLDRGILSALMENA…EIQSTETLISLQNPIMRTIAP ECA0002 AsnC-fami……# # [3]330 MKKQYIEKQQQISFVKSFFSSQ…IGQVQCGVWPQPLRESVSGLL ECA0003假定的……# # [4]492 MITLESLEMLLSIDENELLDDL…WRFDTGLKSRLMRRWQHGKAY ECA0004守恒的……# # [5]499 MRQTAALAERISRLSHALEHGL…AKIEASLQQVAEQIQQSEQQD ECA0005守恒的……# #……… ## [4495] 634 MSDKIIHLTDDSFDTDVLKADG...RRKVDPLRVFASDMARRLELL trx-rv3790 trx-rv... ## [4496] 93 MTKMNNKARRTARELKHLGASI...RELRDEFPMGYLGDYKDDDDK TimBlower TimBlower ## [4497] 309 MFSNLSKRWAQRTLSKSFYSTA...KFKWAGIKTRKFVFNPPKPRK sp|P07143|CY1_YEA... ## [4498] 231 FPTDDDDKIVGGYTCAANSIPY...PGVYTKVCNYVNWIQQTIAAN sp|P00761|TRYP_PI... ## [4499] 269 GVSGSCNIDVVCPEGNGHRDVI...DAAGTGAQFIDGLDSTGTPPV sp|Q7M135|LYSC_LY...
发布问题Bioconductor支持论坛或打开一个GitHub问题。
sessionInfo ()
# # R安装版本4.3.0 RC (2023-04-13 r84269) # #平台:x86_64-pc-linux-gnu(64位)# #下运行:Ubuntu 22.04.2 LTS # # # #矩阵产品:默认# #布拉斯特区:/home/biocbuild/bbs - 3.17 - bioc / R / lib / libRblas。所以# # LAPACK: /usr/lib/x86_64-linux-gnu / LAPACK liblapack.so.3.10.0 # # # #语言环境:# # [1]LC_CTYPE = en_US。utf - 8 LC_NUMERIC = C # #[3]而= en_GB LC_COLLATE = C # # [5] LC_MONETARY = en_US。utf - 8 LC_MESSAGES = en_US。utf - 8 # # [7] LC_PAPER = en_US。utf - 8 LC_NAME = C # # [9] LC_ADDRESS C = C LC_TELEPHONE = # # [11] LC_MEASUREMENT = en_US。utf - 8 LC_IDENTIFICATION = C # # # #时区:美国/ New_York # # tzcode来源:系统(glibc)附加基本包:# # # # # # [1]stats4统计图形grDevices跑龙套数据集方法# # # # # #[8]基地其他附加包:# # [1]rpx_2.8.0 Biostrings_2.68.0 GenomeInfoDb_1.36.0 # # [4] XVector_0.40.0 IRanges_2.34.0 S4Vectors_0.38.0 # # [7] BiocGenerics_0.46.0 BiocStyle_2.28.0 # # # #通过加载一个名称空间(而不是附加):# # [1]sass_0.4.5 utf8_1.2.3 generics_0.1.3 # # [4] xml2_1.3.3 bitops_1.0-7 RSQLite_2.3.1 # # [7] digest_0.6.31 magrittr_2.0.3 evaluate_0.20 # # [10] bookdown_0.33 fastmap_1.1.1 blob_1.2.4 # # [13] jsonlite_1.8.4 DBI_1.1.3 BiocManager_1.30.20 # # [16] httr_1.4.5 purrr_1.0.1 fansi_1.0.4 # # [19] jquerylib_0.1.4 cli_3.6.1 rlang_1.1.0 # # [22] crayon_1.5.2 dbplyr_2.3.2 bit64_4.0.5 # # [25] withr_2.5.0 cachem_1.0.7 yaml_2.3.7 # # [28] tools_4.3.0 memoise_2.0.1 dplyr_1.1.2 # # [31] GenomeInfoDbData_1.2.10 filelock_1.0.2 curl_5.0.0 # # [34] vctrs_0.6.2 R6_2.5.1 BiocFileCache_2.8.0 # # [37] lifecycle_1.0.3 zlibbioc_1.46.0 bit_4.0.5 # # [40] pkgconfig_2.0.3 bslib_0.4.2 pillar_1.9.0 # # [43] glue_1.6.2 xfun_0.39 tibble_3.2.1 # # [46] tidyselect_1.2.0 knitr_1.42 htmltools_0.5.5 # # [49] rmarkdown_2.21 compiler_4.3.0 rcurl_1.98 - 1.12