内容

1时间轴的情节

该文件只包含五年期间产生的最重要数据的一个子集。中所有注释示例(S)和工作单元(W)的概述,以获得印象B-Fabric系统,Türker et al. (2010),在时间轴图中。

NGS数据p1644

质谱仪数据p1875

2生成数据(替换使数据。R

2.1NL42_100K.fastq.gz

样本NGS数据包含100K合并的MiSeq读取,演示了FASTQ中纳米体(NB)和飞码(FC)之间的联系。

NL42_100K <- NestLink:::.getReadsFromFastq("inst/extdata/NL42_100K.fastq.gz") save(NL42_100K, file="inst/extdata/NestLink_NL42_100K.RData")

2.2knownNB.txt

NestLink工作流程的一个可选部分是在测序实验中使用已知的纳米体来估计敏感性和特异性水平。这个示例文件包含在这个实验中应该可以检测到的纳米体的核苷酸序列。在后面的工作流程中,这些纳米体被突出显示并标记为已知NB。

2.3nanobodyFlycodeLinkage。RData

应用该函数得到NGS地面真值runNGSAnalysis到之前的两个文件。

expFile <- query(eh, c("NestLink", "NL42_100K.fastq.gz"))[[1]] expect_true(file.exists(expFile)) scratchFolder <- tempdir() setwd(scratchFolder) knownNB_File <- query(eh, c("NestLink", "knownNB.txt"))[[1]] knownNB_data <- read。table(knownNB_File, sep='\t', header = TRUE, row.names = 1, stringsAsFactors = FALSE) knownNB <- Biostrings::translate(DNAStringSet(knownNB_data$Sequence)) names(knownNB) <- rownames(knownNB_data) knownNB <- sapply(knownNB,toString)参数< -列表()参数[[' NB_Linker1 ']] < -“GGCCggcggGGCC”参数[[' NB_Linker2 ']] < -“GCAGGAGGA”参数[[' ProteaseSite ']] < -“TTAGTCCCAAGA”参数[[' FC_Linker ']] < -“GGCCaaggaggcCGG”参数[[' knownNB ']] < - knownNB参数[[' nReads ']] < - 100参数[[' minRelBestHitFreq ']] < - 0.8参数[[' minConsensusScore ']] < - 0.9参数[[' maxMismatch ']] < - 1参数[[' minNanobodyLength ']] < - 348参数[[' minFlycodeLength ']] < - 33参数[[' FCminFreq ']] < - 1 nanobodyFlycodeLinkage。RData <- runNGSAnalysis(file = expFile[1], param)

2.4NB.tryptic而且FC.tryptic

这两个文件都是生成nb和fc之间链接的前一个NGS步骤的输出。

这些文件被用来证明AA序列的可检测性。

通过对SSRC的预测和使用确定的母体离子质量(pim)来扩展包装函数protViz

ESP_Prediction是通过使用来自的服务生成的https://genepattern.broadinstitute.org,参见Fusaro et al. (2009)

library(stlink) NB <- gettnb () FC <- getFC()

每个表的前十行如下所示:

ESP_Prediction 气孔导度 pim ,科学分析和研究中心 peptideLength
AAAGITYYADSVK 0.82378 1329.6685 21.93845 13
AACCPVAR 0.39342 904.4127 5.56465 8
AADPGSWGQGTPVTVSSELK 0.64844 1986.9767 26.10345 20.
AADYYYGMNHWGK 0.15954 1575.6685 24.80345 13
AANPFGLVQGFGSWGK 0.44514 1635.8278 40.19691 16
AAPDYWGQGTPVTVSSELK 0.39622 2005.9865 31.76845 19
ESP_Prediction 气孔导度 pim ,科学分析和研究中心 peptideLength
120 GSAAAAADSWLTVR 0.75450 足球俱乐部 1375.696 27.80445 14
121 GSAAAAATDWLTVR 0.76422 足球俱乐部 1389.712 29.00445 14
122 GSAAAAATGWLTVR 0.65522 足球俱乐部 1331.707 28.60445 14
123 GSAAAAATVWLR 0.65496 足球俱乐部 1173.637 29.10445 12
124 GSAAAAAYEWLTVR 0.72754 足球俱乐部 1465.743 33.10445 14
125 GSAAAADAAWQEGGR 0.53588 足球俱乐部 1417.645 11.70445 15

2.5F255744。RData而且WU160118。RData

2.5.1质谱仪数据

下面的质谱仪文件可通过ProteomeXchange PXD009301

2.5.2计算肽谱匹配

质谱被分配到肽序列,使用下表中列出的最重要参数和Matrix Science的吉祥物服务器珀金斯等人(1999)2.5版。

参数 价值
COM 170819 _ms1708116_nl5idx4to5_competition2bg_db8_db10_swissprot_d_merge
FASTA 1 p1875_db8_20160704.fasta
FASTA 2 p1875_db10_20170817.fasta
托尔 10
妥鲁香胶 ppm
ITOL 0.6
ITOLU
用户名 egloffp
负责 2 +
IT_MODS 脱酰胺(NQ),氧化(M)
仪器 ESI-TRAP
释放 fgcz_swissprot_d_20140403.fasta

结果被导出为XML。XML被解析并导出为data.frame使用protViz潘斯和格罗斯曼(2019)函数protViz::: as.data.frame.mascot

2.5.3通过B-Fabric提供工作流程

在B-Fabric中注册用户可以使用上述结果和工作流程。但是,为了使用这个包,不需要访问B-Fabric。

2.6PGexport2_normalizedAgainstSBstandards_Peptides.csv

包含基于质谱的无标签定量(LFQ)的纳米体在SMEG和COLI物种中表达的结果。

  • 工作单位:158716 - QEXACTIVEHF_1

    • 20170919 _16_62465_nl5idx1-3_6titratecoli.raw
    • 20170919 _05_62465_nl5idx1-3_6titratecoli.raw
  • 工作单位:158717 - QEXACTIVEHF_1

    • 20170919 _14_62466_nl5idx1-3_7titratesmeg.raw
    • 20170919 _09_62466_nl5idx1-3_7titratesmeg.raw

两次LC-MS/MS运行在Progenesis QI(非线性动力学)中对齐,对齐评分为93.1%,随后进行峰值拾取,允许离子电荷为+2至+5。

3.上传至S3

# !/bin/bash aws——profile AnnotationContributor s3 cp NestLink/F255744。RData s3: / / annotation-contributor / NestLink / F255744。RData--acl public-read aws --profile AnnotationContributor s3 cp NestLink/WU160118.RData s3://annotation-contributor/NestLink/WU160118.RData --acl public-read aws --profile AnnotationContributor s3 cp NestLink s3://annotation-contributor/NestLink --recursive --acl public-read

4概述/开始使用BioconductorExperimentHub

加载元数据

Fl <- system。file("extdata", "metadata.csv", package='NestLink') kable(metadata <- read.csv(fl, stringsAsFactors=FALSE))
标题 描述 BiocVersion 基因组 SourceType SourceUrl SourceVersion 物种 TaxonomyId Coordinate_1_based DataProvider 维护人员 RDataClass DispatchClass RDataPath 标签 笔记
NGS NB FC联动数据样例 展示纳米体(NB)和飞码(FC)之间联系的样品NGS。FASTQ数据 3.9 NA FASTQ https://fgcz-bfabric.uzh.ch/bfabric/userlab/show-project.html?id=1644 11月28日 NA NA NA 苏黎世功能基因组学中心 马库斯·西格帕斯卡尔·埃格洛夫,伦纳特·奥皮茨 DNAStringSet FilePath NestLink / NL42_100K.fastq.gz NA md5 = 4 a13c5c61a5b29f4fd8830c1c15419b6;
蝇虫胰蛋白酶消化 用ESP_Prediction评分Flycodes tryptic消化氨基酸序列。 3.9 NA 三种 https://fgcz-bfabric.uzh.ch/bfabric/userlab/show-project.html?id=1875 11月28日 NA NA NA 苏黎世功能基因组学中心 马库斯·西格帕斯卡尔·埃格洛夫——克里斯蒂安·潘斯 data.frame FilePath NestLink / FC.tryptic NA md5 = f6faa7458350ce1805bec30e9ffdeaae;
纳米体胰蛋白酶消化 纳米体tryptic消化氨基酸序列与ESP_Prediction评分。 3.9 NA 三种 https://fgcz-bfabric.uzh.ch/bfabric/userlab/show-project.html?id=1875 11月28日 NA NA NA 苏黎世功能基因组学中心 马库斯·西格帕斯卡尔·埃格洛夫——克里斯蒂安·潘斯 data.frame FilePath NestLink / NB.tryptic NA md5 = db85a806c5151113536b710d566d9cf3;
FASTA作为单元测试的基础真理 FASTA数据作为单元测试的基础数据。 3.9 NA RData https://fgcz-bfabric.uzh.ch/bfabric/userlab/show-project.html?id=1644 11月28日 NA NA NA 苏黎世功能基因组学中心 马库斯·西格帕斯卡尔·埃格洛夫,伦纳特·奥皮茨 data.frame FilePath NestLink / nanobodyFlycodeLinkage。RData NA md5 = 57 b2756fb0ebcf73d4036846580cb5b2;
已知nanobodies 已知的纳米体是核酸序列。 3.9 NA 三种 https://fgcz-bfabric.uzh.ch/bfabric/userlab/show-project.html?id=1644 11月28日 NA NA NA 苏黎世功能基因组学中心 马库斯·西格帕斯卡尔·埃格洛夫,伦纳特·奥皮茨 data.frame FilePath NestLink / knownNB.txt NA md5 = 003 bf82c58f0a96a2bd945d171dc907c;
SMEG和COLI的定量结果 基于质谱的纳米体在SMEG和COLI物种中表达的无标签定量结果。 3.9 NA CSV https://fgcz-bfabric.uzh.ch/bfabric/userlab/show-project.html?id=1875 11月28日 NA NA NA 苏黎世功能基因组学中心 马库斯·西格帕斯卡尔·埃格洛夫——克里斯蒂安·潘斯 data.frame FilePath NestLink / PGexport2_normalizedAgainstSBstandards_Peptides.csv NA md5 = 0 ca525d0a65d4938f0cbc785b7e0d2d3;面料WU158716、WU158717
F255744吉祥物搜索结果 F255744 Flycodes肽谱匹配(psm)。 3.9 NA 三种 https://fgcz-bfabric.uzh.ch/bfabric/userlab/show-resource.html?id=409912 12月13日 NA NA NA 苏黎世功能基因组学中心 马库斯·西格帕斯卡尔·埃格洛夫——克里斯蒂安·潘斯 data.frame FilePath NestLink / F255744。RData NA md5 = d5e4d13e9ecba4231d1808c6bb0bb454;R409912
WU160118吉祥物搜索结果 WU160118肽谱匹配(pms) flycode。 3.9 NA 三种 https://fgcz-bfabric.uzh.ch/bfabric/userlab/show-workunit.html?id=160118 12月13日 NA NA NA 苏黎世功能基因组学中心 马库斯·西格帕斯卡尔·埃格洛夫——克里斯蒂安·潘斯 data.frame FilePath NestLink / WU160118。RData NA md5 = a17f4505e322d440bc0e9edf8e5277bb;bfabric WU160118

查询和加载NestLink从aws s3打包数据

library(ExperimentHub) eh <- ExperimentHub();查询(呃,“NestLink”)
## # snapshotDate(): 2022-10-24 ## # $dataprovider:功能基因组学中心苏黎世(FGCZ) ## # $species: NA ## # $rdataclass: data.frame, DNAStringSet ## #附加mcols():分类名称,基因组,描述,## # coordinate_1_based,维护者,rdatadateadded,准备类,标签,## # rdatapath, sourceurl, sourcetype ## #检索记录,例如,'对象[["EH2063]]]' ## ##标题## EH2063 |样本NGS NB FC链接数据## EH2064 | Flycodes tryptic消化## EH2065 |纳米体tryptic消化## EH2066 | FASTA作为单元测试的真实基础## EH2067 |已知纳米体## EH2068 | SMEG和COLI的定量结果## EH2069 | F255744吉祥物搜索结果## EH2070 | WU160118吉祥物搜索结果
load(query(eh, c("NestLink", "F255744. rdata "))[[1]]) dim(F255744)
## [1] 15655 21
load(query(eh, c("NestLink", "WU160118. rdata "))[[1]])
## [1] 128390 22

5会话信息

下面是编译后的输出sessionInfo ()

## R版本4.2.1(2022-06-23)##平台:x86_64-pc-linux-gnu(64位)##运行在Ubuntu 20.04.5 LTS ## ##矩阵产品:默认## BLAS: /home/biocbuild/bbs-3.16-bioc/R/lib/libRblas。/home/biocbuild/bbs-3.16-bioc/R/lib/libRlapack。所以## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# # [3] LC_TIME=en_GB LC_COLLATE= c# # [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# # [9] LC_ADDRESS=C lc_phone = c# # [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基本包:## [1]stats4 stats graphics grDevices utils datasets methods ##[8]基础## ##其他附加包:# # # # [1] knitr_1.40 scales_1.2.1 [3] ggplot2_3.3.6 NestLink_1.14.0 # # [5] ShortRead_1.56.0 GenomicAlignments_1.34.0 # # [7] SummarizedExperiment_1.28.0 Biobase_2.58.0 # # [9] MatrixGenerics_1.10.0 matrixStats_0.62.0 # # [11] Rsamtools_2.14.0 GenomicRanges_1.50.0 # # [13] BiocParallel_1.32.0 protViz_0.7.3 # # [15] gplots_3.1.3 Biostrings_2.66.0 # # [17] GenomeInfoDb_1.34.0 XVector_0.38.0 # # [19] IRanges_2.32.0 S4Vectors_0.36.0 # # [21] ExperimentHub_2.6.0 AnnotationHub_3.6.0 # # [23] BiocFileCache_2.6.0dbplyr_2.2.1 ## [25] BiocGenerics_0.44.0 BiocStyle_2.26.0 ## ## loaded via a namespace (and not attached): ## [1] nlme_3.1-160 bitops_1.0-7 ## [3] bit64_4.0.5 RColorBrewer_1.1-3 ## [5] filelock_1.0.2 httr_1.4.4 ## [7] tools_4.2.1 bslib_0.4.0 ## [9] utf8_1.2.2 R6_2.5.1 ## [11] KernSmooth_2.23-20 mgcv_1.8-41 ## [13] colorspace_2.0-3 DBI_1.1.3 ## [15] withr_2.5.0 tidyselect_1.2.0 ## [17] bit_4.0.4 curl_4.3.3 ## [19] compiler_4.2.1 cli_3.4.1 ## [21] DelayedArray_0.24.0 labeling_0.4.2 ## [23] bookdown_0.29 sass_0.4.2 ## [25] caTools_1.18.2 rappdirs_0.3.3 ## [27] stringr_1.4.1 digest_0.6.30 ## [29] rmarkdown_2.17 jpeg_0.1-9 ## [31] pkgconfig_2.0.3 htmltools_0.5.3 ## [33] highr_0.9 fastmap_1.1.0 ## [35] rlang_1.0.6 RSQLite_2.2.18 ## [37] shiny_1.7.3 farver_2.1.1 ## [39] jquerylib_0.1.4 generics_0.1.3 ## [41] hwriter_1.3.2.1 jsonlite_1.8.3 ## [43] gtools_3.9.3 dplyr_1.0.10 ## [45] RCurl_1.98-1.9 magrittr_2.0.3 ## [47] GenomeInfoDbData_1.2.9 interp_1.1-3 ## [49] Matrix_1.5-1 munsell_0.5.0 ## [51] Rcpp_1.0.9 fansi_1.0.3 ## [53] lifecycle_1.0.3 stringi_1.7.8 ## [55] yaml_2.3.6 zlibbioc_1.44.0 ## [57] grid_4.2.1 blob_1.2.3 ## [59] parallel_4.2.1 promises_1.2.0.1 ## [61] crayon_1.5.2 deldir_1.0-6 ## [63] lattice_0.20-45 splines_4.2.1 ## [65] KEGGREST_1.38.0 magick_2.7.3 ## [67] pillar_1.8.1 codetools_0.2-18 ## [69] glue_1.6.2 BiocVersion_3.16.0 ## [71] evaluate_0.17 latticeExtra_0.6-30 ## [73] BiocManager_1.30.19 png_0.1-7 ## [75] vctrs_0.5.0 httpuv_1.6.6 ## [77] purrr_0.3.5 gtable_0.3.1 ## [79] assertthat_0.2.1 cachem_1.0.6 ## [81] xfun_0.34 mime_0.12 ## [83] xtable_1.8-4 later_1.3.0 ## [85] tibble_3.1.8 AnnotationDbi_1.60.0 ## [87] memoise_2.0.1 ellipsis_0.3.2 ## [89] interactiveDisplayBase_1.36.0

参考文献

弗萨罗,D. R.马尼,J. P.梅西罗夫和S. A.卡尔,2009。用质谱法预测靶向蛋白分析的高反应肽生物科技Nat。》。27(2): 190-98。

潘斯、克里斯蒂安和乔纳斯·格罗斯曼,2019年。protViz:蛋白质组学中质谱相关数据的可视化和分析.维也纳,奥地利:R统计计算基金会。https://www.R-project.org

David N. Perkins, Darryl J. C. Pappin, David M. Creasy, John S. Cottrell, 1999。利用质谱数据搜索序列数据库以概率为基础的蛋白质鉴定。电泳20(18): 3551-67。https://doi.org/10.1002/ (sici) 1522 - 2683 (19991201) 18 < 3551:: aid-elps3551 > 3.0.co; 2

Türker, Can, Fuat Akal, Dieter Joho, Christian Panse, Simon barkowo - oesterreicher, Hubert rehauer, Ralph Schlapbach. 2010。B-Fabric:生命科学的瑞士军刀在第13届扩展数据库技术国际会议论文集- EDBT 10.ACM出版社。https://doi.org/10.1145/1739041.1739135