注意:可以找到本教程的最新版本在这里

注意:如果你使用systemPipeR在发表的研究中,请引用:Backman, T.W.H and Girke, T.(2016)。systemPipeR: NGS工作流和报表生成环境。BMC生物信息学, 17: 388。10.1186 / s12859 - 016 - 1241 - 0

1工作流模板

跑步方式:预定的跑步方式systemPipeR工作流程通过*。限制型心肌病这些文件可以在交互模式下逐行执行,也可以通过R或命令行中的单个命令执行。这样,通过使用R提供的功能强大的报告实用工具,可以以完全自动化的方式以PDF或HTML格式生成全面和可重复的分析报告。

设置自定义项目报告的模板如下所示*。限制型心肌病文件由帮助包systemPipeRdata的小插图子目录systemPipeR.这些报表模板对应的HTML可在这里找到:systemPipeRNAseqsystemPipeRIBOseqsystemPipeChIPseq而且systemPipeVARseq.与…一起工作*。限制型心肌病高效归档,基本知识knitr而且乳胶R降价v2是必需的。

1.1目录结构

*systemPipeR的*预配置目录结构。

图1:systemPipeR的预配置的目录结构

在上一步中加载的样例数据的工作环境包含以下预配置的目录结构。目录名称表示在绿色.用户可以根据需要更改此结构,但需要相应地调整工作流中的代码。

  • 工作流/如。rnaseq /
    • 这是运行工作流的R会话的根目录。
    • 运行脚本(*。限制型心肌病)和样例注释(targets.txt)文件都在这里。
    • 注意,这个目录可以有任何名称(如。rnaseqvarseq).更改它的名称不需要在运行脚本中进行任何修改。
    • 重要的子目录
      • 参数/
        • 存储非cwl参数文件,如:* .param* .tmpl而且* .run.sh.这些文件只需要向后兼容,以便使用以前的自定义命令行界面运行旧的工作流。
        • 参数/ cwl /:存放所有CWL参数文件。要组织工作流,每个工作流都可以有自己的子目录,其中所有CWL参数而且input.yml文件需要在同一子目录下。
      • 数据/
        • FASTQ文件
        • FASTA参考档案(如。参考基因组)
        • 注释文件
        • 等。
      • 结果/
        • 分析结果通常写入此目录,包括:对齐、变体和峰值文件(BAM、VCF、BED);表格结果文件;以及图像/绘图文件
        • 注意,用户可以选择在单独的子目录中组织给定样本和分析步骤的结果文件。

每个工作流模板中包含以下参数文件:

  1. targets.txt:用户提供的首字母;下游targets_ * . txt自动生成文件
  2. * .param / cwl:定义输入/输出文件操作的参数,如。
    • hisat2-se / hisat2-mapping-se.cwl
    • hisat2-se / hisat2-mapping-se.yml
  3. * _run.sh:可选的bash脚本
  4. 计算机集群环境的配置文件(跳过单机):
    • .batchtools.conf.R:定义调度程序的类型batchtools指向集群的模板文件,位于用户的主目录下
    • * .tmpl:系统使用的调度器参数,如。扭矩,SGE, Slurm等。

2RNA-Seq工作流

此工作流演示如何使用各种实用程序构建和运行自动化的端到端分析工作流RNA-Seq数据。

完整的工作流程可以在这里找到超文本标记语言.Rmd,.R

2.1加载包和工作流模板

加载RNA-Seq将工作流示例放到当前工作目录中。

库(systemPipeRdata) genWorkenvir(工作流= "rnaseq") setwd("rnaseq")

2.2创建工作流

此模板提供了一些常用步骤RNAseq工作流。上的操作可以添加、删除、修改工作流步骤萨尔对象。

sal <- SPRproject() sal <- importtwf (sal, file_path = "systemPipeRNAseq. "Rmd", verbose = FALSE)

工作流程包括以下步骤:

  1. 读预处理
    • 质量过滤(修边)
    • FASTQ质量报告
  2. 对齐:HISAT2(或任何其他RNA-Seq对准器)
  3. 校准数据
  4. 读计数
  5. 样本相关分析
  6. 差异表达基因(DEGs)分析
  7. GO项富集分析
  8. Gene-wise集群

2.3运行工作流

sal <- runWF(sal)

2.4工作流程可视化

plotWF (sal)

2.5报告生成

sal <- renderReport(sal) sal <- renderLogs(sal)

3.ChIP-Seq工作流

此工作流演示如何使用各种实用程序构建和运行自动化的端到端分析工作流ChIP-Seq数据。

完整的工作流程可以在这里找到超文本标记语言.Rmd,.R

3.1加载包和工作流模板

加载ChIP-Seq将工作流示例放到当前工作目录中。

genWorkenvir(工作流= "chipseq") setwd("chipseq")

工作流程包括以下步骤:

  1. 读预处理
    • 质量过滤(修边)
    • FASTQ质量报告
  2. 对齐:Bowtie2rsubread
  3. 校准数据
  4. 峰打电话:MACS2
  5. 带有基因组上下文的峰值注释
  6. 微分结合分析
  7. GO项富集分析
  8. 主题分析

3.2创建工作流

此模板提供了一些常用步骤ChIPseq工作流。上的操作可以添加、删除、修改工作流步骤萨尔对象。

sal <- SPRproject() sal <- importWF(sal, file_path = " systempipechipq . "Rmd", verbose = FALSE)

3.3运行工作流

sal <- runWF(sal)

3.4工作流程可视化

plotWF (sal)

3.5报告生成

sal <- renderReport(sal) sal <- renderLogs(sal)

4VAR-Seq工作流

此工作流演示如何使用各种实用程序构建和运行自动化的端到端分析工作流VAR-Seq数据。

完整的工作流程可以在这里找到:超文本标记语言.Rmd,.R

4.1加载包和工作流模板

加载VAR-Seq将工作流示例放到当前工作目录中。

genWorkenvir(workflow = "varseq") setwd("varseq")

工作流程包括以下步骤:

  1. 读预处理
    • 质量过滤(修边)
    • FASTQ质量报告
  2. 对齐:gsnapbwa
  3. 变体调用:VariantToolsGATKBCFtools
  4. 变体过滤:VariantTools而且VariantAnnotation
  5. 变异注释:VariantAnnotation
  6. 结合多个样本的结果
  7. 样本统计汇总

4.2创建工作流

此模板提供了一些常用步骤VARseq工作流。上的操作可以添加、删除、修改工作流步骤萨尔对象。

sal <- SPRproject() sal <- importtwf (sal, file_path = "systemPipeVARseq. "Rmd", verbose = FALSE)

4.3运行工作流

sal <- runWF(sal)

4.4工作流程可视化

plotWF (sal)

4.5报告生成

sal <- renderReport(sal) sal <- renderLogs(sal)

5Ribo-Seq工作流

此工作流演示如何使用各种实用程序构建和运行自动化的端到端分析工作流RIBO-Seq数据。

完整的工作流程可以在这里找到:超文本标记语言.Rmd,.R

5.1加载包和工作流模板

加载RIBO-Seq将工作流示例放到当前工作目录中。

genWorkenvir(workflow = "riboseq") setwd("riboseq")

工作流程包括以下步骤:

  1. 读预处理
    • 适配器修整和质量过滤
    • FASTQ质量报告
  2. 对齐:HISAT2(或任何其他RNA-Seq对准器)
  3. 校准数据
  4. 计算基因组特征的读分布
  5. 向工作流中添加自定义特性(例如uorf)
  6. 基因组阅读覆盖转录本
  7. 读计数
  8. 样本相关分析
  9. 差异表达基因(DEGs)分析
  10. GO项富集分析
  11. Gene-wise集群
  12. 差异核糖体结合(翻译效率)

此模板提供了一些常用步骤RIBOseq工作流。上的操作可以添加、删除、修改工作流步骤萨尔对象。

sal <- SPRproject() sal <- importtwf (sal, file_path = "systemPipeRIBOseq. "Rmd", verbose = FALSE)

5.2运行工作流

sal <- runWF(sal)

5.3工作流程可视化

plotWF (sal)

5.4报告生成

sal <- renderReport(sal) sal <- renderLogs(sal)

6版本信息

sessionInfo ()
## R版本4.2.1(2022-06-23)##平台:x86_64-pc-linux-gnu(64位)##运行在Ubuntu 20.04.5 LTS ## ##矩阵产品:默认## BLAS: /home/biocbuild/bbs-3.16-bioc/R/lib/libRblas。/home/biocbuild/bbs-3.16-bioc/R/lib/libRlapack。所以## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# # [3] LC_TIME=en_GB LC_COLLATE= c# # [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# # [9] LC_ADDRESS=C lc_phone = c# # [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基本包:## [1]stats4 stats graphics grDevices utils datasets methods ##[8]基础## ##其他附加包:# # # # [1] magrittr_2.0.3 systemPipeR_2.4.0 [3] ShortRead_1.56.0 GenomicAlignments_1.34.0 # # [5] SummarizedExperiment_1.28.0 Biobase_2.58.0 # # [7] MatrixGenerics_1.10.0 matrixStats_0.62.0 # # [9] BiocParallel_1.32.0 Rsamtools_2.14.0 # # [11] Biostrings_2.66.0 XVector_0.38.0 # # [13] GenomicRanges_1.50.0 GenomeInfoDb_1.34.0 # # [15] IRanges_2.32.0 S4Vectors_0.36.0 # # [17] BiocGenerics_0.44.0 BiocStyle_2.26.0 # # # #通过加载一个名称空间(而不是附加):## [1] bitops_1.0-7 webshot_0.5.4 RColorBrewer_1.1-3 ## [4] httr_1.4.4 tools_4.2.1 bslib_0.4.0 ## [7] utf8_1.2.2 R6_2.5.1 DT_0.26 ## [10] DBI_1.1.3 colorspace_2.0-3 withr_2.5.0 ## [13] tidyselect_1.2.0 compiler_4.2.1 cli_3.4.1 ## [13] rvest_1.0.3 formatR_1.12 xml2_1.3.3 ## [19] DelayedArray_0.24.0 labeling_0.4.2 bookdown_0.29 ## [22] sass_0.4.2 scales_1.2.1 systemPipeRdata_2.1.2 ## [25] systemfonts_1.0.4 string_1 .4.1 digest_0.6.30 ## [28] rmarkdown_1 .17 svglite_2.1.0 jpeg_0.1-9 ## [31][37] rstudioapi_0.14 jquerylib_0.1.4 generics_0.1.3 ## [40] farver_2.1.1 hwriter_1.3.2.1 jsonlite_1.8.3 ## [43] crosstalk_1.2.0 dplyr_1.0.10 RCurl_1.98-1.9 ## [46] kableExtra_1.3.4 GenomeInfoDbData_1.2.9 interp_1.1-3 ## [49] Matrix_1.5-1 Rcpp_1.0.9 munsell_0.5.0 ## [52] fansi_1.0.3 lifecycle_1.0.3 stringi_1.7.8 ## [55] yaml_2.3.6 zlibbioc_1.44.0 grid_4.2.1 ## [58] parallel_4.2.1 crayon_1.5.2deldir_1.0-6 ## [61] lattice_0.20-45 magick_2.7.3 knitr_1.40 ## [64] pillar_1.8.1 codetools_0.2-18 glue_1.6.2 ## [67] evaluate_0.17 latticeExtra_0.6-30 remotes_2.4.2 ## [70] BiocManager_1.30.19 png_0.1-7 vctrs_0.5.0 ## [73] gtable_0.3.1 assertthat_0.2.1 cachem_1.0.6 ## [76] ggplot2_3.3.6 xfun_0.34 viridisLite_0.4.1 ## [79] tibble_3.1.8

7资金

本项目由美国国家科学基金会资助abi - 1661152

8参考文献