该文件只包含五年期间产生的最重要数据的一个子集。中所有注释示例(S)和工作单元(W)的概述,以获得印象B-Fabric系统,Türker et al. (2010),在时间轴图中。
NGS数据p1644
质谱仪数据p1875
使数据。R
)NL42_100K.fastq.gz
样本NGS数据包含100K合并的MiSeq读取,演示了FASTQ中纳米体(NB)和飞码(FC)之间的联系。
NL42_100K <- NestLink:::.getReadsFromFastq("inst/extdata/NL42_100K.fastq.gz") save(NL42_100K, file="inst/extdata/NestLink_NL42_100K.RData")
knownNB.txt
NestLink工作流程的一个可选部分是在测序实验中使用已知的纳米体来估计敏感性和特异性水平。这个示例文件包含在这个实验中应该可以检测到的纳米体的核苷酸序列。在后面的工作流程中,这些纳米体被突出显示并标记为已知NB。
nanobodyFlycodeLinkage。RData
应用该函数得到NGS地面真值runNGSAnalysis
到之前的两个文件。
expFile <- query(eh, c("NestLink", "NL42_100K.fastq.gz"))[[1]] expect_true(file.exists(expFile)) scratchFolder <- tempdir() setwd(scratchFolder) knownNB_File <- query(eh, c("NestLink", "knownNB.txt"))[[1]] knownNB_data <- read。table(knownNB_File, sep='\t', header = TRUE, row.names = 1, stringsAsFactors = FALSE) knownNB <- Biostrings::translate(DNAStringSet(knownNB_data$Sequence)) names(knownNB) <- rownames(knownNB_data) knownNB <- sapply(knownNB,toString)参数< -列表()参数[[' NB_Linker1 ']] < -“GGCCggcggGGCC”参数[[' NB_Linker2 ']] < -“GCAGGAGGA”参数[[' ProteaseSite ']] < -“TTAGTCCCAAGA”参数[[' FC_Linker ']] < -“GGCCaaggaggcCGG”参数[[' knownNB ']] < - knownNB参数[[' nReads ']] < - 100参数[[' minRelBestHitFreq ']] < - 0.8参数[[' minConsensusScore ']] < - 0.9参数[[' maxMismatch ']] < - 1参数[[' minNanobodyLength ']] < - 348参数[[' minFlycodeLength ']] < - 33参数[[' FCminFreq ']] < - 1 nanobodyFlycodeLinkage。RData <- runNGSAnalysis(file = expFile[1], param)
NB.tryptic
而且FC.tryptic
这两个文件都是生成nb和fc之间链接的前一个NGS步骤的输出。
这些文件被用来证明AA序列的可检测性。
通过对SSRC的预测和使用确定的母体离子质量(pim)来扩展包装函数protViz.
列ESP_Prediction
是通过使用来自的服务生成的https://genepattern.broadinstitute.org,参见Fusaro et al. (2009).
library(stlink) NB <- gettnb () FC <- getFC()
每个表的前十行如下所示:
肽 | ESP_Prediction | 气孔导度 | pim | ,科学分析和研究中心 | peptideLength |
---|---|---|---|---|---|
AAAGITYYADSVK | 0.82378 | 注 | 1329.6685 | 21.93845 | 13 |
AACCPVAR | 0.39342 | 注 | 904.4127 | 5.56465 | 8 |
AADPGSWGQGTPVTVSSELK | 0.64844 | 注 | 1986.9767 | 26.10345 | 20. |
AADYYYGMNHWGK | 0.15954 | 注 | 1575.6685 | 24.80345 | 13 |
AANPFGLVQGFGSWGK | 0.44514 | 注 | 1635.8278 | 40.19691 | 16 |
AAPDYWGQGTPVTVSSELK | 0.39622 | 注 | 2005.9865 | 31.76845 | 19 |
肽 | ESP_Prediction | 气孔导度 | pim | ,科学分析和研究中心 | peptideLength | |
---|---|---|---|---|---|---|
120 | GSAAAAADSWLTVR | 0.75450 | 足球俱乐部 | 1375.696 | 27.80445 | 14 |
121 | GSAAAAATDWLTVR | 0.76422 | 足球俱乐部 | 1389.712 | 29.00445 | 14 |
122 | GSAAAAATGWLTVR | 0.65522 | 足球俱乐部 | 1331.707 | 28.60445 | 14 |
123 | GSAAAAATVWLR | 0.65496 | 足球俱乐部 | 1173.637 | 29.10445 | 12 |
124 | GSAAAAAYEWLTVR | 0.72754 | 足球俱乐部 | 1465.743 | 33.10445 | 14 |
125 | GSAAAADAAWQEGGR | 0.53588 | 足球俱乐部 | 1417.645 | 11.70445 | 15 |
F255744。RData
而且WU160118。RData
下面的质谱仪文件可通过ProteomeXchange PXD009301.
质谱被分配到肽序列,使用下表中列出的最重要参数和Matrix Science的吉祥物服务器珀金斯等人(1999)2.5版。
参数 | 价值 |
---|---|
COM | 170819 _ms1708116_nl5idx4to5_competition2bg_db8_db10_swissprot_d_merge |
FASTA 1 | p1875_db8_20160704.fasta |
FASTA 2 | p1875_db10_20170817.fasta |
托尔 | 10 |
妥鲁香胶 | ppm |
ITOL | 0.6 |
ITOLU | 达 |
用户名 | egloffp |
负责 | 2 + |
IT_MODS | 脱酰胺(NQ),氧化(M) |
仪器 | ESI-TRAP |
释放 | fgcz_swissprot_d_20140403.fasta |
结果被导出为XML。XML被解析并导出为data.frame使用protViz潘斯和格罗斯曼(2019)函数protViz::: as.data.frame.mascot
.
在B-Fabric中注册用户可以使用上述结果和工作流程。但是,为了使用这个包,不需要访问B-Fabric。
类附带的数据集,执行了以下代码片段以生成NestLink包中。
这里只提取了元数据(没有MS2)。
load("~/Downloads/444589.RData") library(protViz) library(NestLink) WU160118 <-call('rbind', lapply(list("F255737", "F255744", "F255747", "F255749", "F255751", "F255760", "F255761", "F255762"), function(datfilename){df <- as.data.frame.mascot(get(datfilename)) df$datfilename <- datfilename df})) save(WU160118, file = "../inst/extdata/WU160118. "RData", compress = TRUE, compression_level = 9)
数据随NestLink包,可以使用以下代码片段浏览:
library(ExperimentHub) eh <- ExperimentHub();load(query(eh, c("NestLink", " wu16118 . rdata "))[[1]]))类(WU160118)
## [1] "data.frame"
PATTERN <- "^GS[ASTNQDEFVLYWGP]{7}(WR|WLTVR|WQEGGR|WLR|WQSR)$" idx <- grepl(PATTERN, WU160118$pep_seq) WU <- WU160118[idx & WU160118$pep_score > 25,]
x |
---|
“史:/ p1875 /蛋白质组学/ FUSION_2 / egloffp_20170814_NL5idx4to5/20170814_02_IMACelution.raw” |
“史:/ p1875 /蛋白质组学/ FUSION_2 / egloffp_20170814_NL5idx4to5/20170814_03_IMACelution.raw” |
“史:/ p1875 /蛋白质组学/ FUSION_2 / egloffp_20170814_NL5idx4to5/20170814_05_HiLoadElution.raw” |
“史:/ p1875 /蛋白质组学/ FUSION_2 / egloffp_20170814_NL5idx4to5/20170814_04_HiLoadElution.raw” |
“史:/ p1875 /蛋白质组学/ FUSION_2 / egloffp_20170814_NL5idx4to5/20170814_08_MaxBindingBG.raw” |
“史:/ p1875 /蛋白质组学/ FUSION_2 / egloffp_20170814_NL5idx4to5/20170814_07_MaxBindingBG.raw” |
“史:/ p1875 /蛋白质组学/ FUSION_2 / egloffp_20170814_NL5idx4to5/20170814_09_MaxBinding.raw” |
“史:/ p1875 /蛋白质组学/ FUSION_2 / egloffp_20170814_NL5idx4to5/20170814_10_MaxBinding.raw” |
“史:/ p1875 /蛋白质组学/ FUSION_2 / egloffp_20170814_NL5idx4to5/20170814_12_Competition1.raw” |
“史:/ p1875 /蛋白质组学/ FUSION_2 / egloffp_20170814_NL5idx4to5/20170814_13_Competition1.raw” |
“史:/ p1875 /蛋白质组学/ FUSION_2 / egloffp_20170814_NL5idx4to5/20170814_14_Competition1BG.raw” |
“史:/ p1875 /蛋白质组学/ FUSION_2 / egloffp_20170814_NL5idx4to5/20170814_15_Competition1BG.raw” |
“史:/ p1875 /蛋白质组学/ FUSION_2 / egloffp_20170814_NL5idx4to5/20170814_17_Competition2.raw” |
“史:/ p1875 /蛋白质组学/ FUSION_2 / egloffp_20170814_NL5idx4to5/20170814_18_Competition2.raw” |
“史:/ p1875 /蛋白质组学/ FUSION_2 / egloffp_20170814_NL5idx4to5/20170814_19_Competition2BG.raw” |
“史:/ p1875 /蛋白质组学/ FUSION_2 / egloffp_20170814_NL5idx4to5/20170814_20_Competition2BG.raw” |
PGexport2_normalizedAgainstSBstandards_Peptides.csv
包含基于质谱的无标签定量(LFQ)的纳米体在SMEG和COLI物种中表达的结果。
工作单位:158716 - QEXACTIVEHF_1
20170919 _16_62465_nl5idx1-3_6titratecoli.raw
20170919 _05_62465_nl5idx1-3_6titratecoli.raw
工作单位:158717 - QEXACTIVEHF_1
20170919 _14_62466_nl5idx1-3_7titratesmeg.raw
20170919 _09_62466_nl5idx1-3_7titratesmeg.raw
两次LC-MS/MS运行在Progenesis QI(非线性动力学)中对齐,对齐评分为93.1%,随后进行峰值拾取,允许离子电荷为+2至+5。
# !/bin/bash aws——profile AnnotationContributor s3 cp NestLink/F255744。RData s3: / / annotation-contributor / NestLink / F255744。RData--acl public-read aws --profile AnnotationContributor s3 cp NestLink/WU160118.RData s3://annotation-contributor/NestLink/WU160118.RData --acl public-read aws --profile AnnotationContributor s3 cp NestLink s3://annotation-contributor/NestLink --recursive --acl public-read
加载元数据
Fl <- system。file("extdata", "metadata.csv", package='NestLink') kable(metadata <- read.csv(fl, stringsAsFactors=FALSE))
标题 | 描述 | BiocVersion | 基因组 | SourceType | SourceUrl | SourceVersion | 物种 | TaxonomyId | Coordinate_1_based | DataProvider | 维护人员 | RDataClass | DispatchClass | RDataPath | 标签 | 笔记 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
NGS NB FC联动数据样例 | 展示纳米体(NB)和飞码(FC)之间联系的样品NGS。FASTQ数据 | 3.9 | NA | FASTQ | https://fgcz-bfabric.uzh.ch/bfabric/userlab/show-project.html?id=1644 | 11月28日 | NA | NA | NA | 苏黎世功能基因组学中心 | 马库斯·西格m.seeger@imm.uzh.ch帕斯卡尔·埃格洛夫p.egloff@imm.uzh.ch,伦纳特·奥皮茨lopitz@fgcz.ethz.ch | DNAStringSet | FilePath | NestLink / NL42_100K.fastq.gz | NA | md5 = 4 a13c5c61a5b29f4fd8830c1c15419b6; |
蝇虫胰蛋白酶消化 | 用ESP_Prediction评分Flycodes tryptic消化氨基酸序列。 | 3.9 | NA | 三种 | https://fgcz-bfabric.uzh.ch/bfabric/userlab/show-project.html?id=1875 | 11月28日 | NA | NA | NA | 苏黎世功能基因组学中心 | 马库斯·西格m.seeger@imm.uzh.ch帕斯卡尔·埃格洛夫p.egloff@imm.uzh.ch——克里斯蒂安·潘斯cp@fgcz.ethz.ch | data.frame | FilePath | NestLink / FC.tryptic | NA | md5 = f6faa7458350ce1805bec30e9ffdeaae; |
纳米体胰蛋白酶消化 | 纳米体tryptic消化氨基酸序列与ESP_Prediction评分。 | 3.9 | NA | 三种 | https://fgcz-bfabric.uzh.ch/bfabric/userlab/show-project.html?id=1875 | 11月28日 | NA | NA | NA | 苏黎世功能基因组学中心 | 马库斯·西格m.seeger@imm.uzh.ch帕斯卡尔·埃格洛夫p.egloff@imm.uzh.ch——克里斯蒂安·潘斯cp@fgcz.ethz.ch | data.frame | FilePath | NestLink / NB.tryptic | NA | md5 = db85a806c5151113536b710d566d9cf3; |
FASTA作为单元测试的基础真理 | FASTA数据作为单元测试的基础数据。 | 3.9 | NA | RData | https://fgcz-bfabric.uzh.ch/bfabric/userlab/show-project.html?id=1644 | 11月28日 | NA | NA | NA | 苏黎世功能基因组学中心 | 马库斯·西格m.seeger@imm.uzh.ch帕斯卡尔·埃格洛夫p.egloff@imm.uzh.ch,伦纳特·奥皮茨lopitz@fgcz.ethz.ch | data.frame | FilePath | NestLink / nanobodyFlycodeLinkage。RData | NA | md5 = 57 b2756fb0ebcf73d4036846580cb5b2; |
已知nanobodies | 已知的纳米体是核酸序列。 | 3.9 | NA | 三种 | https://fgcz-bfabric.uzh.ch/bfabric/userlab/show-project.html?id=1644 | 11月28日 | NA | NA | NA | 苏黎世功能基因组学中心 | 马库斯·西格m.seeger@imm.uzh.ch帕斯卡尔·埃格洛夫p.egloff@imm.uzh.ch,伦纳特·奥皮茨lopitz@fgcz.ethz.ch | data.frame | FilePath | NestLink / knownNB.txt | NA | md5 = 003 bf82c58f0a96a2bd945d171dc907c; |
SMEG和COLI的定量结果 | 基于质谱的纳米体在SMEG和COLI物种中表达的无标签定量结果。 | 3.9 | NA | CSV | https://fgcz-bfabric.uzh.ch/bfabric/userlab/show-project.html?id=1875 | 11月28日 | NA | NA | NA | 苏黎世功能基因组学中心 | 马库斯·西格m.seeger@imm.uzh.ch帕斯卡尔·埃格洛夫p.egloff@imm.uzh.ch——克里斯蒂安·潘斯cp@fgcz.ethz.ch | data.frame | FilePath | NestLink / PGexport2_normalizedAgainstSBstandards_Peptides.csv | NA | md5 = 0 ca525d0a65d4938f0cbc785b7e0d2d3;面料WU158716、WU158717 |
F255744吉祥物搜索结果 | F255744 Flycodes肽谱匹配(psm)。 | 3.9 | NA | 三种 | https://fgcz-bfabric.uzh.ch/bfabric/userlab/show-resource.html?id=409912 | 12月13日 | NA | NA | NA | 苏黎世功能基因组学中心 | 马库斯·西格m.seeger@imm.uzh.ch帕斯卡尔·埃格洛夫p.egloff@imm.uzh.ch——克里斯蒂安·潘斯cp@fgcz.ethz.ch | data.frame | FilePath | NestLink / F255744。RData | NA | md5 = d5e4d13e9ecba4231d1808c6bb0bb454;R409912 |
WU160118吉祥物搜索结果 | WU160118肽谱匹配(pms) flycode。 | 3.9 | NA | 三种 | https://fgcz-bfabric.uzh.ch/bfabric/userlab/show-workunit.html?id=160118 | 12月13日 | NA | NA | NA | 苏黎世功能基因组学中心 | 马库斯·西格m.seeger@imm.uzh.ch帕斯卡尔·埃格洛夫p.egloff@imm.uzh.ch——克里斯蒂安·潘斯cp@fgcz.ethz.ch | data.frame | FilePath | NestLink / WU160118。RData | NA | md5 = a17f4505e322d440bc0e9edf8e5277bb;bfabric WU160118 |
查询和加载NestLink从aws s3打包数据
library(ExperimentHub) eh <- ExperimentHub();查询(呃,“NestLink”)
## # snapshotDate(): 2022-10-24 ## # $dataprovider:功能基因组学中心苏黎世(FGCZ) ## # $species: NA ## # $rdataclass: data.frame, DNAStringSet ## #附加mcols():分类名称,基因组,描述,## # coordinate_1_based,维护者,rdatadateadded,准备类,标签,## # rdatapath, sourceurl, sourcetype ## #检索记录,例如,'对象[["EH2063]]]' ## ##标题## EH2063 |样本NGS NB FC链接数据## EH2064 | Flycodes tryptic消化## EH2065 |纳米体tryptic消化## EH2066 | FASTA作为单元测试的真实基础## EH2067 |已知纳米体## EH2068 | SMEG和COLI的定量结果## EH2069 | F255744吉祥物搜索结果## EH2070 | WU160118吉祥物搜索结果
load(query(eh, c("NestLink", "F255744. rdata "))[[1]]) dim(F255744)
## [1] 15655 21
load(query(eh, c("NestLink", "WU160118. rdata "))[[1]])
## [1] 128390 22
下面是编译后的输出sessionInfo ()
:
## R版本4.2.1(2022-06-23)##平台:x86_64-pc-linux-gnu(64位)##运行在Ubuntu 20.04.5 LTS ## ##矩阵产品:默认## BLAS: /home/biocbuild/bbs-3.16-bioc/R/lib/libRblas。/home/biocbuild/bbs-3.16-bioc/R/lib/libRlapack。所以## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# # [3] LC_TIME=en_GB LC_COLLATE= c# # [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# # [9] LC_ADDRESS=C lc_phone = c# # [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基本包:## [1]stats4 stats graphics grDevices utils datasets methods ##[8]基础## ##其他附加包:# # # # [1] knitr_1.40 scales_1.2.1 [3] ggplot2_3.3.6 NestLink_1.14.0 # # [5] ShortRead_1.56.0 GenomicAlignments_1.34.0 # # [7] SummarizedExperiment_1.28.0 Biobase_2.58.0 # # [9] MatrixGenerics_1.10.0 matrixStats_0.62.0 # # [11] Rsamtools_2.14.0 GenomicRanges_1.50.0 # # [13] BiocParallel_1.32.0 protViz_0.7.3 # # [15] gplots_3.1.3 Biostrings_2.66.0 # # [17] GenomeInfoDb_1.34.0 XVector_0.38.0 # # [19] IRanges_2.32.0 S4Vectors_0.36.0 # # [21] ExperimentHub_2.6.0 AnnotationHub_3.6.0 # # [23] BiocFileCache_2.6.0dbplyr_2.2.1 ## [25] BiocGenerics_0.44.0 BiocStyle_2.26.0 ## ## loaded via a namespace (and not attached): ## [1] nlme_3.1-160 bitops_1.0-7 ## [3] bit64_4.0.5 RColorBrewer_1.1-3 ## [5] filelock_1.0.2 httr_1.4.4 ## [7] tools_4.2.1 bslib_0.4.0 ## [9] utf8_1.2.2 R6_2.5.1 ## [11] KernSmooth_2.23-20 mgcv_1.8-41 ## [13] colorspace_2.0-3 DBI_1.1.3 ## [15] withr_2.5.0 tidyselect_1.2.0 ## [17] bit_4.0.4 curl_4.3.3 ## [19] compiler_4.2.1 cli_3.4.1 ## [21] DelayedArray_0.24.0 labeling_0.4.2 ## [23] bookdown_0.29 sass_0.4.2 ## [25] caTools_1.18.2 rappdirs_0.3.3 ## [27] stringr_1.4.1 digest_0.6.30 ## [29] rmarkdown_2.17 jpeg_0.1-9 ## [31] pkgconfig_2.0.3 htmltools_0.5.3 ## [33] highr_0.9 fastmap_1.1.0 ## [35] rlang_1.0.6 RSQLite_2.2.18 ## [37] shiny_1.7.3 farver_2.1.1 ## [39] jquerylib_0.1.4 generics_0.1.3 ## [41] hwriter_1.3.2.1 jsonlite_1.8.3 ## [43] gtools_3.9.3 dplyr_1.0.10 ## [45] RCurl_1.98-1.9 magrittr_2.0.3 ## [47] GenomeInfoDbData_1.2.9 interp_1.1-3 ## [49] Matrix_1.5-1 munsell_0.5.0 ## [51] Rcpp_1.0.9 fansi_1.0.3 ## [53] lifecycle_1.0.3 stringi_1.7.8 ## [55] yaml_2.3.6 zlibbioc_1.44.0 ## [57] grid_4.2.1 blob_1.2.3 ## [59] parallel_4.2.1 promises_1.2.0.1 ## [61] crayon_1.5.2 deldir_1.0-6 ## [63] lattice_0.20-45 splines_4.2.1 ## [65] KEGGREST_1.38.0 magick_2.7.3 ## [67] pillar_1.8.1 codetools_0.2-18 ## [69] glue_1.6.2 BiocVersion_3.16.0 ## [71] evaluate_0.17 latticeExtra_0.6-30 ## [73] BiocManager_1.30.19 png_0.1-7 ## [75] vctrs_0.5.0 httpuv_1.6.6 ## [77] purrr_0.3.5 gtable_0.3.1 ## [79] assertthat_0.2.1 cachem_1.0.6 ## [81] xfun_0.34 mime_0.12 ## [83] xtable_1.8-4 later_1.3.0 ## [85] tibble_3.1.8 AnnotationDbi_1.60.0 ## [87] memoise_2.0.1 ellipsis_0.3.2 ## [89] interactiveDisplayBase_1.36.0
Egloff, Pascal, Iwan Zimmermann, Fabian M. Arnold, Cedric A.J. Hutter, Damien Damien Morger, Lennart Opitz, Lucy Poveda等。2018。用于深入分析结合蛋白整体的工程肽条形码。bioRxiv.https://doi.org/10.1101/287813.
弗萨罗,D. R.马尼,J. P.梅西罗夫和S. A.卡尔,2009。用质谱法预测靶向蛋白分析的高反应肽生物科技Nat。》。27(2): 190-98。
潘斯、克里斯蒂安和乔纳斯·格罗斯曼,2019年。protViz:蛋白质组学中质谱相关数据的可视化和分析.维也纳,奥地利:R统计计算基金会。https://www.R-project.org.
David N. Perkins, Darryl J. C. Pappin, David M. Creasy, John S. Cottrell, 1999。利用质谱数据搜索序列数据库以概率为基础的蛋白质鉴定。电泳20(18): 3551-67。https://doi.org/10.1002/ (sici) 1522 - 2683 (19991201) 18 < 3551:: aid-elps3551 > 3.0.co; 2.
Türker, Can, Fuat Akal, Dieter Joho, Christian Panse, Simon barkowo - oesterreicher, Hubert rehauer, Ralph Schlapbach. 2010。B-Fabric:生命科学的瑞士军刀在第13届扩展数据库技术国际会议论文集- EDBT 10.ACM出版社。https://doi.org/10.1145/1739041.1739135.