数据生成topdownr

Pavel V. Shliaha1——塞巴斯蒂安·吉布2Ole Nørregaard Jensen1

1南丹麦大学生物化学与分子生物学系，丹麦。
2德国Greifswald大学麻醉科和重症监护室。

2022年11月1日

摘要

的功能，描述了创建分析所需的输入文件的设置和数据准备topdownr包中。

包

topdownr 1.20.0

前言

topdownr是免费的开源软件。如果你使用它，请在出版物中引用它来支持这个项目:

P.V. Shliaha, S. Gibb, V. Gorshkov, M.S. Jespersen, G.R. Andersen, D. Bailey, J. Schwartz, S. Eliuk, V. Schwämmle，和O.N. Jensen。2018。通过自动多模态气相蛋白质碎片最大化自上而下蛋白质组学中的序列覆盖率。分析化学。DOI:10.1021 / acs.analchem.8b02344

问题和bug

如有错误、错别字、建议或其他问题，请将问题提交我们的追踪系统(https://github.com/sgibb/topdownr/issues)提供尽可能多的资料、一个可重复的例子和输出sessionInfo ()．

如果您没有GitHub帐户，或者希望接触到更广泛的受众，以了解使用R进行蛋白质组学分析的一般问题，您可能需要使用Bioconductor支持网站:https://support.bioconductor.org/．

1简介

1．1的`topdownr`数据生成流程

2安装附加软件

2.1安装Thermo软件

要创建方法，用户必须首先安装和修改Orbitrap Fusion LUMOS工作站:

请求TribridSeriesWorkstationSetup-v3.2.exe来自Thermo Scientific公司。
通过运行安装工作站TribridSeriesWorkstationSetup-v3.2.exe．

2．2设置XMLMethodChanger

XMLMethodChanger需要将XML方法转换为.meth文件。它可以在https://github.com/thermofisherlsms/meth-modifications用户必须自己下载并编译(或者向Thermo Scientific申请)。你至少需要3.2测试版的版本。

2．3安装操作系统

为了使用XMLMethodChanger操作系统必须使用．(点)作为小数点和，(逗号)作为数字组分隔符(千点二应格式为1000年。2)．

在Windows 7设置位于Windows控制面板>区域和语言>格式．选择英语(美国)此处或使用附加的设置按钮，手动更改。

2.4设置ScanHeadsman

数据采集后topdownr将需要头信息从.raw文件。因此,ScanHeadsman使用软件。可以从上面下载https://bitbucket.org/caetera/scanheadsman

它需要微软net 4.5或者更晚的版本(它通常预装在典型的现代Windows系统上，或者可以在微软的下载中心找到，例如:https://www.microsoft.com/en-us/download/details.aspx?id=30653)．此外，你还需要保温瓶MS文件阅读器可以从Thermo FlexNet网站免费下载(但必须注册):https://thermo.flexnetoperations.com/

ScanHeadsman是弗拉基米尔·戈尔什科夫发明的vgor@bmb.sdu.dk．

3.创建方法

重要的是,XMLmethodChanger不创建方法新创，但修改预先存在的方法(由XMLMethodChanger)使用XML文件中描述的修改。因此，创建用户指定方法的整个过程由两部分组成:

使用所有可能的碎片参数组合构造XML文件(参见topdownr: createExperimentsFragmentOptimisation,topdownr: writeMethodXmls下文)。
提交构造的XML文件和模板.meth文件XMLmethodChanger．

我们选择使用目标MS2扫描(TMS2)作为存储碎片参数的方法。每个TMS2存储在一个单独的实验中。实验不会重叠。

方法编辑器

4数据准备`topdownr`

下面显示的是创建XML文件并使用它们修改TMS2IndependentTemplateForTD.meth模板文件。

library("topdownr") ##创建MS1设置MS1 <- expandMs1Conditions(FirstMass=400, LastMass=1200, Microscans=as.integer(10)) ##设置TargetMass targetMz <- cbind(mz=c(560.6, 700.5, 933.7)， z=rep(1,3)) ##设置常用设置common <- list(OrbitrapResolution="R120K"， IsolationWindow=1, MaxITTimeInMS=200, Microscans=as.integer(40)， AgcTarget=c(1e5, 5e5, 1e6)) ##创建不同片段条件的设置cid <- expandTms2Conditions(MassList=targetMz, common，ActivationType="CID"， CIDCollisionEnergy=seq(7,35,7)) hcd <- expandTms2Conditions(MassList=targetMz, common, ActivationType=" hcd "， HCDCollisionEnergy=seq(7,35,7)) etd <- expandTms2Conditions(MassList=targetMz, common, ActivationType=" etd "， ETDReactionTime=as.double(1:2)) etcid <- expandTms2Conditions(MassList=targetMz, common, ActivationType=" etd "， ETDReactionTime=as.double(1:2)， etdentalactivation =" etcid "，etdentalactivationenergy =as.double(1:2)) uvpd <- expandTms2Conditions(MassList=targetMz, common, ActivationType=" uvpd ") ##用上述设置的所有组合创建实验##用于片段优化exps <- createExperimentsFragmentOptimisation(ms1=ms1, cid, hcd, etd, etcid, uvpd, groupBy=c("AgcTarget"， "replication")， nMs2perMs1=10, scandation =0.5, replication =2，##运行xmlmethodchange (modificationXml=list.files(pattern="^method.*\\.xml$")， templateMeth="TMS2IndependentTemplateForTD. txt ")。， executable="path\\to\\XmlMethodChanger.exe")

5数据采集

直接输注后，确保MS1谱在反褶积后产生预期的蛋白质量Xtract．下图为肌红蛋白的反卷积MS1谱图。主要肿块对应于去除Met的肌红蛋白。

Xtract肌红蛋白

6数据准备

之前R分析蛋白质碎片的数据我们要进行转换.raw文件。

6.1提取头信息

部分信息(SpectrumId、离子注入时间(ms)、Orbitrap分辨率、目标Mz、ETD反应时间、CID活化和HCD活化)存储在扫描头中，而其他信息(ETD试剂靶和AGC靶)仅在方法表中可用。

你可以跑ScanHeadsman从命令行(ScanHeadsman.exe——noMS——方法:CSV)或使用topdownr：

runScanHeadsman(path="path\\to\\raw-files"， executable="path\\to\\ headsman .exe")

ScanHeadsman将生成. txt(扫描报头表)和. csv(方法表)文件为每个.raw文件。

6.2将.raw文件转换为mzML

光谱必须是电荷态反卷积的Xtract节点蛋白质组发现者2.1．该软件返回反卷积谱在mzML格式。

蛋白质组发现者

一次. csv，. txt,.mzML为每个人存档.raw生产出来了我们可以开始分析用吗topdownr．请参阅分析装饰图案(装饰图案(“分析”,包=“topdownr”))作为例子。

7会话信息

sessionInfo ()

## R版本4.2.1(2022-06-23)##平台:x86_64-pc-linux-gnu(64位)##运行在Ubuntu 20.04.5 LTS ## ##矩阵产品:默认## BLAS: /home/biocbuild/bbs-3.16-bioc/R/lib/libRblas。/home/biocbuild/bbs-3.16-bioc/R/lib/libRlapack。所以## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# # [3] LC_TIME=en_GB LC_COLLATE= c# # [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# # [9] LC_ADDRESS=C lc_phone = c# # [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基础包:## [1]stats4 stats graphics grDevices utils datasets methods ##[8]基础## ##其他附加包:## [1]ggplot2_3.3.6 ranger_0.14.1 topdownrdata_1.19.0 ## [4] topdownr_1.20.0 Biostrings_2.66.0 GenomeInfoDb_1.34.0 ## [7] XVector_0.38.0 IRanges_2.32.0 S4Vectors_0.36.0 ## [10] ProtGenerics_1.30.0 BiocGenerics_0.44.0 BiocStyle_2.26.0 ## ##通过命名空间加载(且未附加):## [1] Biobase_2.58.0 sasse_1.8.3 bslib_0.4.0 ## [7] assertthat_0.2.1 highr_0.9 BiocManager_1.30.19 ## [10] affy_1.76.0 GenomeInfoDbData_1.2.9 yaml_2.3.6 ## [13] impute_1.72.0 pillar_1.8.1 lattice_0.20-45 ## [19] glue_1.6.2 limma_3.54.0 digest_0.6.30 ## [19] colorspace_2.0-3 Matrix_1.5-1 htmltools_0.5.3 ## [22] preprocessCore_1.60.0 plyr_1.8.7 MALDIquant_1.21 ## [28] bookdown_0.29 zlibbioc_1.44.0[40] crayon_1.5.2 evaluate_0.17 ncdf4_1.19 ## [43] fansi_1.0.3 doParallel_1.0.17 MASS_7.3-58.1 ## [46] mzR_2.32.0 tools_4.2.1 lifecycle_1.0.3 ## [52] cluster_2.1.4 pcaMethods_1.90.0 compiler_4.2.1 ## [55] jquerylib_0.1.4 mzID_1.36.0 rlang_1.0.6 ## [58] grid_4.2.1 RCurl_1.98-1.9 ##iterators_1.0.14 ## [61] MsCoreUtils_1.10.0 labeling_0.4.2 bitops_1.0-7 ## [64] rmarkdown_2.17 gtable_0.3.1 codetools_0.2-18 ## [67] DBI_1.1.3 R6_2.5.1 knitr_1.40 ## [70] dplyr_1.0.10 fastmap_1.1.0 utf8_1.2.2 ## [73] clue_0.3-62 stringi_1.7.8 parallel_2.1 ## [76] Rcpp_1.0.9 vctrs_0.5.0 tidyselect_1.2.0 ## [79] xfun_0.34