注意:可以找到本教程的最新版本在这里

注意:如果你使用systemPipeR在发表的研究中,请引用:Backman, T.W.H and Girke, T.(2016)。systemPipeR: NGS工作流和报表生成环境。BMC生物信息学, 17: 388。10.1186 / s12859 - 016 - 1241 - 0

1工作流模板

跑步方式:预定的跑步方式sytemPipeR工作流程通过*。限制型心肌病这些文件可以在交互模式下逐行执行,也可以通过R或命令行中的单个命令执行。这样,通过使用r提供的功能强大的报告实用工具,可以以完全自动化的方式以PDF或HTML格式生成全面和可重复的分析报告。下面展示了如何执行工作流(如。, systemPipeRNAseq.Rmd)。

Rscript -e "rmarkdown::render('systemPipeRNAseq.Rmd')"

设置自定义项目报告的模板如下所示*。限制型心肌病文件由帮助包systemPipeRdata的小插图子目录systemPipeR.这些报表模板对应的HTML可在这里找到:systemPipeRNAseqsystemPipeRIBOseqsystemPipeChIPseq而且systemPipeVARseq.与…一起工作*。限制型心肌病高效归档,基本知识knitr而且乳胶R降价v2是必需的。

1.1目录结构

在上一步中加载的样例数据的工作环境包含以下预配置的目录结构。目录名称表示在绿色.用户可以根据需要更改此结构,但需要相应地调整工作流中的代码。

  • 工作流/如。rnaseq /
    • 这是运行工作流的R会话的根目录。
    • 运行脚本(*。限制型心肌病)和样例注释(targets.txt)文件都在这里。
    • 注意,这个目录可以有任何名称(如。rnaseqvarseq).更改它的名称不需要在运行脚本中进行任何修改。
    • 重要的子目录
      • 参数/
        • 存储非cwl参数文件,如:* .param* .tmpl而且* .run.sh.这些文件只需要向后兼容,以便使用以前的自定义命令行界面运行旧的工作流。
        • 参数/ cwl /:存放所有CWL参数文件。要组织工作流,每个工作流都可以有自己的子目录,其中所有CWL参数而且input.yml文件需要在同一子目录下。
      • 数据/
        • FASTQ文件
        • FASTA参考档案(如。参考基因组)
        • 注释文件
        • 等。
      • 结果/
        • 分析结果通常写入此目录,包括:对齐、变体和峰值文件(BAM、VCF、BED);表格结果文件;以及图像/绘图文件
        • 注意,用户可以选择在单独的子目录中组织给定样本和分析步骤的结果文件。

每个工作流模板中包含以下参数文件:

  1. targets.txt:用户提供的首字母;下游targets_ * . txt自动生成文件
  2. * .param / cwl:定义输入/输出文件操作的参数,如。
    • hisat2-se / hisat2-mapping-se.cwl
    • hisat2-se / hisat2-mapping-se.yml
  3. * _run.sh:可选的bash脚本
  4. 计算机集群环境的配置文件(跳过单机):
    • .batchtools.conf.R:定义调度程序的类型batchtools指向集群的模板文件,位于用户的主目录下
    • * .tmpl:系统使用的调度器参数,如。扭矩,SGE, Slurm等。

2RNA-Seq工作流

此工作流演示如何使用各种实用程序构建和运行自动化的端到端分析工作流RNA-Seq数据。

完整的工作流程可以在这里找到超文本标记语言.Rmd,.R

2.1加载包和工作流模板

加载RNA-Seq将工作流示例放到当前工作目录中。

库(systemPipeRdata) genWorkenvir(工作流= "rnaseq") setwd("rnaseq")

2.2运行工作流

接下来,运行选定的示例工作流systemPipeRNAseq.Rmd)通过从命令行执行让- brnaseq目录中。或者,也可以从提供的中运行代码*。限制型心肌病模板文件从R交互。

工作流程包括以下步骤:

  1. 读预处理
    • 质量过滤(修边)
    • FASTQ质量报告
  2. 对齐:HISAT2(或任何其他RNA-Seq对准器)
  3. 校准数据
  4. 读计数
  5. 样本相关分析
  6. 差异表达基因(DEGs)分析
  7. GO项富集分析
  8. Gene-wise集群

3.ChIP-Seq工作流

此工作流演示如何使用各种实用程序构建和运行自动化的端到端分析工作流ChIP-Seq数据。

完整的工作流程可以在这里找到超文本标记语言.Rmd,.R

3.1加载包和工作流模板

加载ChIP-Seq将工作流示例放到当前工作目录中。

genWorkenvir(工作流= "chipseq") setwd("chipseq")

3.2运行工作流

接下来,运行选定的示例工作流systemPipeChIPseq.Rmd)通过从命令行执行让- bchipseq目录中。或者,也可以从提供的中运行代码*。限制型心肌病模板文件从R交互。

工作流程包括以下步骤:

  1. 读预处理
    • 质量过滤(修边)
    • FASTQ质量报告
  2. 对齐:Bowtie2rsubread
  3. 校准数据
  4. 峰打电话:MACS2BayesPeak
  5. 带有基因组上下文的峰值注释
  6. 微分结合分析
  7. GO项富集分析
  8. 主题分析

4VAR-Seq工作流

此工作流演示如何使用各种实用程序构建和运行自动化的端到端分析工作流VAR-Seq数据。

完整的工作流程可以在这里找到:超文本标记语言.Rmd,.R

4.1加载包和工作流模板

加载VAR-Seq将工作流示例放到当前工作目录中。

genWorkenvir(workflow = "varseq") setwd("varseq")

4.2运行工作流

接下来,运行选定的示例工作流systemPipeVARseq.Rmd)通过从命令行执行让- bvarseq目录中。或者,也可以从提供的中运行代码*。限制型心肌病模板文件从R交互。

工作流程包括以下步骤:

  1. 读预处理
    • 质量过滤(修边)
    • FASTQ质量报告
  2. 对齐:gsnapbwa
  3. 变体调用:VariantToolsGATKBCFtools
  4. 变体过滤:VariantTools而且VariantAnnotation
  5. 变异注释:VariantAnnotation
  6. 结合多个样本的结果
  7. 样本统计汇总

5Ribo-Seq工作流

此工作流演示如何使用各种实用程序构建和运行自动化的端到端分析工作流RIBO-Seq数据。

完整的工作流程可以在这里找到:超文本标记语言.Rmd,.R

5.1加载包和工作流模板

加载RIBO-Seq将工作流示例放到当前工作目录中。

genWorkenvir(workflow = "riboseq") setwd("riboseq")

5.2运行工作流

接下来,运行选定的示例工作流systemPipeRIBOseq.Rmd)通过从命令行执行让- bribseq目录中。或者,也可以从提供的中运行代码*。限制型心肌病模板文件从R交互。

工作流程包括以下步骤:

  1. 读预处理
    • 适配器修整和质量过滤
    • FASTQ质量报告
  2. 对齐:HISAT2(或任何其他RNA-Seq对准器)
  3. 校准数据
  4. 计算基因组特征的读分布
  5. 向工作流中添加自定义特性(例如uorf)
  6. 基因组阅读覆盖转录本
  7. 读计数
  8. 样本相关分析
  9. 差异表达基因(DEGs)分析
  10. GO项富集分析
  11. Gene-wise集群
  12. 差异核糖体结合(翻译效率)

6版本信息

sessionInfo ()
## R版本4.0.5(2021-03-31)##平台:x86_64-pc-linux-gnu(64位)##运行在:Ubuntu 18.04.5 LTS ## ##矩阵产品:默认## BLAS: /home/biocbuild/bbs-3.12-bioc/R/lib/libRblas。所以## LAPACK: /home/biocbuild/bbs-3.12-bioc/R/lib/libRlapack。所以## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# # [3] LC_TIME=en_US。UTF-8 LC_COLLATE= c# # [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# # [9] LC_ADDRESS=C lc_phone = c# # [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基本包:## [1]stats4并行统计图形grDevices utils数据集##[8]方法基础## ##其他附加包:# # # # [1] DESeq2_1.30.1 magrittr_2.0.1 [3] batchtools_0.9.15 ape_5.5 # # [5] ggplot2_3.3.3 systemPipeR_1.24.6 # # [7] ShortRead_1.48.0 GenomicAlignments_1.26.0 # # [9] SummarizedExperiment_1.20.0 Biobase_2.50.0 # # [11] MatrixGenerics_1.2.1 matrixStats_0.58.0 # # [13] BiocParallel_1.24.1 Rsamtools_2.6.0 # # [15] Biostrings_2.58.0 XVector_0.30.0 # # [17] GenomicRanges_1.42.0 GenomeInfoDb_1.26.7 # # [19] IRanges_2.24.1 S4Vectors_0.28.1 # # [21] BiocGenerics_0.36.1 BiocStyle_2.18.1 # # # #通过加载命名空间(且未附加):[1] GOstats_2.56.0 backports_1.2.1 BiocFileCache_1.14.0 ## [4] systemfonts_1.0.1 GSEABase_1.52.1 splines_4.0.5 ## [7] digest_0.6.27 htmltools_0.5.1.1 magick_2.7.1 ## [10] GO.db_3.12.1 fansi_0.4.2 checkmate_2.0.0 ## [13] memoise_2.0.0 BSgenome_1.58.0 base64url1.4 ## [19] askpass_1. 1.1 prettyunits_1.1.1 jpeg_0.1-8.1 ## [25] rappdirs_0.3.3 xfun_0.22 dplyr_1.0.5 ## [28] crayon_1.4.1 rcurl_1 . 1.3## [58] . jsonlite_1.7.2 ## [31] graph_1.68.0 genefilter_1.72.1 VariantAnnotation_1.36.0 glue_1.4.2 ## [37] kableExtra_1.3.4 gtable_0.3.0 zlibbioc_1.36.0 ## [40] webshot_0.5.2 DelayedArray_0.16.3 v83.4.2 ## [43] Rgraphviz_2.34.0 scales_1.1.1 pheatmap_1.0.12 ## [46] DBI_1.1.1 edgeR_3.32.1 Rcpp_1.0.6 ## [49] viridisLite_0.4.0 xtable_1. 1.8-4 progress_1.2.2 ## [52] bit_4.0.4 rsvg_2.1.1 AnnotationForge_1.32.0 ## [55] httr_1.4.2 RColorBrewer_1.1-2 ellipsis_0.3.2 ## [58] farver_2.1.0 pkgconfig_2.0.3 XML_3.99-0.6 ## [61] sass_0.3.1 dbplyr_2.1.1 locfit_1.5-9.4 ## [64] utf8_1.2.1 labeling_0.4.2 tidyselect_1.1.1 ## [67] rlang_0.4.11 AnnotationDbi_1.52.0 munsell_0.5.0 ## [70] tools_4.0.5 cachem_1.0.4 generics_0.1.0 ## [73] RSQLite_2.2.7 evaluate_0.14 stringr_1.4.0 ## [76] fastmap_1.1.0 yaml_2.2.1 knitr_1.33 ## [79] bit64_4.0.5 purrr_0.3.4 RBGL_1.66.0 ## [82] nlme_3.1-152 formatR_1.9 xml2_1.3.2 ## [85] biomaRt_2.46.3 debugme_1.1.0 compiler_4.0.5 ## [88] rstudioapi_0.13 curl_4.3.1 png_0.1-7 ## [91] geneplotter_1.68.0 tibble_3.1.1 bslib_0.2.4 ## [94] stringi_1.5.3 highr_0.9 GenomicFeatures_1.42.3 ## [97] lattice_0.20-41 Matrix_1.3-2 vctrs_0.3.8 ## [100] pillar_1.6.0 lifecycle_1.0.0 BiocManager_1.30.12 ## [103] jquerylib_0.1.4 data.table_1.14.0 bitops_1.0-7 ## [106] rtracklayer_1.50.0 R6_2.5.0 latticeExtra_0.6-29 ## [109] hwriter_1.3.2 bookdown_0.22 codetools_0.2-18 ## [112] assertthat_0.2.1 openssl_1.4.4 Category_2.56.0 ## [115] rjson_0.2.20 withr_2.4.2 GenomeInfoDbData_1.2.4 ## [118] hms_1.0.0 grid_4.0.5 DOT_0.1 ## [121] rmarkdown_2.7

7资金

本项目由美国国家科学基金会资助abi - 1661152

8参考文献