1介绍

Systempiper.为下一代序列（NGS）应用程序提供自动报告生成的建筑物分析工作流程，例如RNA-SEQ，CHIP-SEQ，VAR-SEQ等许多应用程序（Girke 2014）。一个重要的功能是支持运行命令行软件，例如NGS对齐器，在单个计算机上或计算群集。这包括交互式作业提交或批量提交给群集排队系统。例如，Systempiper.可以与大多数命令线对齐器一起使用，例如BWA.（恒利2013; H李和德国2009）那TOPHAT2.（Kim等人2013）和Bowtie2.（Langmead和Salzberg 2012）以及基于R的NGS对齐器rsubread.（廖，Smyth和Shi 2013）和GSNAP（GMAPR）（吴和NACU 2010）。通过明确定义的样本注释基础设施促进了复杂样品集和实验设计的高效处理，这提高了NGS区域中许多典型分析工作流的再现性和用户友好性（Lawrence等，2013）。

设计工作流程的中央概念Sytempiper.环境是使用样本管理容器Sysargs.。此S4对象类的实例由此构建systemargs.来自两个简单的拔出文件的功能：a目标文件和A.帕纳文件。后者是缺少命令行软件的工作流程步骤的可选。通常，ASysargs.实例存储所有采样级输入以及由命令行或基于R基软件生成的相应输出的路径，生成采样级别输出文件，例如读取的预处理器（修剪/过滤的FASTQ文件），对齐器（SAM /BAM文件），变体呼叫者（VCF / BCF文件）或峰值呼叫者（床/ WIG文件）。每个采样级别输入/输出操作使用它自己Sysargs.实例。出口的出口Sysargs.通常定义下一个的样本输入Sysargs.实例。通过与之写出外部来建立这种连接令人愤怒函数到一个用于下一个输入的新目标文件systemargs.称呼。通过链接几个Sysargs.步骤在一起可以构建复杂的工作流，涉及许多采样级输入/输出文件操作与任何命令行或基于R基软件的组合。

systempiper_workflow.

跑步的预期方法Sytempiper.工作流是Via* .rnw.或者* .rmd.文件，可以在交互模式下行或使用来自R或命令行的单个命令执行makefile.。这种方式可以以完全自动化的方式生成PDF或HTML格式的全面和可重复的分析报告。提供用于设置自定义项目报告的模板* .rnw.文件中的文件羽毛此包的子目录。此报告模板的相应PDF在此处链接：systempiphernaseq.那systempipechipseq.和systempipevarseq.。跟...共事* .rnw.或者* .rmd.文件有效，基本知识sw或者kn和乳胶或者r markdown v2.是必须的。

2入门

2.1安装

R软件运行Systempiper.和systempiperdata.可以从中下载cr。这Systempiper.环境可以使用r使用rBioclite.安装命令。

源（“http://biocondudard.org/bioclite.r”）#sources源bioclite.r安装脚本Bioclite（“systempiper”）＃从Biocumon Bioclite（“Tgirke / Systempiperdata”，Build_Vignettes = True，依赖关系= True）来自github

2.2加载包和文档

库（“systempiper”）＃加载包库（HELP =“Systempiper”）＃列表包信息Vignette（“Systempiper”）＃打开Vignette

2.3示例FASTQ文件

此概述Vignette使用的Mini示例FASTQ文件以及相关的工作流程报告Vignettes可以从中下载这里。所选数据集SRP010938.包含18个配对端（PE）读取集rabidposis thaliana（Howard等，2013）。为了最大限度地减少测试期间的处理时间，每个FASTQ文件已经分发到90,000-100,000个随机采样的PE读取到每种染色体的前100,000个核苷酸映射A. Thalina基因组。相应的相应参考基因组序列（FASTA）及其GFF注释文件（在同一下载中提供）已相应截断。以这种方式，整个测试样本数据集在存储空间中小于200MB。已选择PE读取集以用于该测试数据集以进行灵活性，因为它可以用于测试需要SE（单端）读取或PE读取的两种类型的分析例程。

2.4结构的结构`目标`文件

这目标文件定义所有输入文件（例如FASTQ，BAM，BCF）和分析工作流程的样本比较。以下显示了样本的格式目标此包提供的文件。在具有单个类型的输入文件的目标文件中，这里的FASTQ文件的单端（SE）读取，前三列是必需的，包括它们的列名，而对于PE读取是FASTQ文件的四个必填列。所有后续列都是可选的，可以根据需要添加任何数量的附加列。

库（Systempiper）TargetSpath < -  system.file（“extdata”，“targets.txt”，package =“systempiper”）read.delim（targetspath，comment.char =“＃”）

##文件名SampleName Factor Samplelong实验日期## 1./Data/SRR446027_1.FastQ M1a M1模型.1h.a 1 23-mar-2012 ## 2 ./data/srr446028_1.fastq m1b m1模型.1h.b 1 23-mar-2012 ## 3 ./data/srr446029_1.fastq a1a a1 avr.1h.a 1 23-mar-2012 ## 4 ./data/srr446030_1.fastq a1b a1 avr.1h.b 1 23-mar-2012## 5 ./data/srr446031_1.fastq v1a v1 viv.1h.a 1 23-mar-2012 ## 6 ./data/srr446032_1.fastq v1b v1viv.1h.b 1 23-mar-2012 ## 7。/data/srr446033_1.fastq m6a m6 mock.6h.a 1 23-mar-2012 ## 8 ./data/srr446034_1.fastq m6b m6模型.6h.b 1 23-mar-2012 ## 9 ./data/srr446035_1.fastq a6a a6 avr.6h.a 1 23-mar-2012 ## 10 ./data/srr446036_1.fastq a6b a6 avr.6h.b 1 23-mar-2012 ## 11 ./data/srr446037_1.fastq v6a v6vir.6h.a 1 23-mar-2012 ## 12 ./data/srr446038_1.fastq v6b v6 vir.6h.b 1 23-mar-2012 ## 13 ./data/srr446039_1.fastq m12a m12模拟。1 23-mar-2012 ## 14 ./data/srr446040_1.fastq m12b m12模拟.12h.b 1 23-mar-2012 ## 15 ./data/srr446041_1.fastq a12a a12 avr.12h.a 1 23-Mar-2012 ## 16 ./data/srr446042_1.fastq a12b a12 avr.12h.b 1 23-mar-2012 ## 17 ./data/srr446043_1.fastq v12a v12 vir.12h.a 1 23-mar-2012 ## 18 ./data/srr446044_1.fastq v12bV12 Vir.12h.b 1 23-Mar-2012

2.5结构的结构`目标`配对结束的文件（PE）样本

targetSpath < -  system.file（“extdata”，“targetspe.txt”，package =“systempiper”）read.delim（targetspath，comment.char =“＃”）[1：2,1：6]

## filename1 filename2 samplename factor samplelong实验## 1 ./data/srr446027_1.fastq ./data/srr446027_2.fastq m1a m1 mock.1h.a 1 ## 2 ./data/srr446028_1.fastq ./data/srr446028_2.fastqM1B M1模拟.1H.B 1

2.6样本比较

样本比较在标题线中定义目标从'开始的文件＃'。功能readcomp.导入比较并将其存储在一个列表。或者，readcomp.可以从相应的情况下获得比较信息Sysargs.对象（见下文）。注意，标题线是可选的。它们主要用于根据某些生物预期控制比较分析，例如RNA-SEQ实验中的简单成对比较。

ReadComp（File = TargetSpath，Format =“Vector”，Delim =“ - ”）

## $ cmpset1 ## [1]“M1-A1”“M1-V1”“A1-V1”“M6-A6”“M6-V6”“A6-V6”“M12-A12”“M12-V12”“A12-V12“## ## $ CMPSET2 ## [1]”M1-A1“”M1-V1“”M1-M6“”M1-A6“”M1-V6“”M1-M12“”M1-A12““M1-V12”“A1-V1”## [10]“A1-M6”“A1-A6”“A1-V6”“A1-M12”“A1-A12”“A1-V12”“V1-M6”“V1-A6”“V1-V6”## [19]“V1-M12”“V1-A12”“V1-V12”“M6-A6”“M6-V6”“M6-M12”“M6-A12”“M6-V12”“A6-V6”## [28]“A6-M12”“A6-A12”“A6-V12”“V6-M12”“V6-A12”“V6-V12”“M12-A12”“M12-V12”“A12-V12”

2.7结构的结构`帕纳`文件和`Sysargs.`容器

这帕纳文件定义命令行软件的参数。以下显示了样本的格式帕纳此包提供的文件。

parampath < -  system.file（“extdata”，“tophat.param”，package =“systempiper”）read.delim（parampath，comment.char =“＃”）

##成对名称值## 1模块 bowtie2 / 2.1.0 ## 2模块 tophat / 2.0.8b ## 3软件 tophat ## 4 cores -p 4 ## 5其他 -g 1  -  segment-length 25 -i 30 -i 3000 ## Outfile1 -o  ## 7 Outfile1路径./results/ ## 8 Outfile1 remove  ## 9 outfile1附加.tophat＃＃10 Outfile1 Outextension .tophat / accepted_hits.bam ## 11参考 ./data/tair10.fasta ## 12 infile1   ## 13 infile1路径 ## 14 infile2   ## 15 infile2路径

这systemargs.函数导入两者的定义帕纳文件和文件目标文件，并将所有相关信息存储为Sysargs.目的。要在没有命令行软件的情况下运行管道，可以分配空值至Sysma.代替帕纳文件。另外，人们可以启动Systempiper.通过提供目标文件，使用预先生成的BAM文件工作流程文件名列为BAM文件提供了路径Sysma.被安排了空值。

args < -  suppresswarnings（systemargs（syssma = parampath，mytargets = targetspath））args

##在18个样本上运行'tophat'的“sysargs”的实例

有几种访问者功能可用，该功能是在槽位名称之后命名的Sysargs.对象类。

名字（args）

## [1]“targetsin”“targetsout”“targetsheader”“模块”“软件”“核心”## [7]“其他”“参考”“结果”“infile1”“Infile2”“Outfile1”## [13]“sysargs”“出口”

模块（args）

## [1]“Bowtie2 / 2.1.0”“Tophat / 2.0.8b”

核心（args）

## [1] 4

外阴道（args）[1]

## m1a ##“/tmp/rtmpjpraud/rbuild2fe51fd5c47e/systempiperdata/vignettes/results/srr446027_1.fastq.tophat/accepted_hits.bam”

sysargs（args）[1]

## m1a ##“Tophat -p 4-g 1  -  segent-length 25 -i 30 -i 3000 -o /tmp/rtmpjpraud/rbuild2fe51fd5c47e/systempiperdata/vignettes/results/srr446027_1.fastq.tophat / tmp / rtmpjpraud /RBuild2FE51FD5C47E / Systempiperdata / Vignettes / Data / Tair10.fasta ./data/srr446027_1.fastq ./data/srr446027_2.fastq“

3.工作流程概述

3.1定义环境设置和样本

负载包

图书馆（Systempiper）

构造Sysargs.对象帕纳和目标文件。

args < -  systemargs（systemargs（sysma = trim.param“，mytargets =”targets.txt“）

3.2读取预处理

功能Preprocessreads.允许将预定义或自定义读取预处理函数应用于引用的所有FASTQ文件Sysargs.容器，如质量过滤或适配器修剪例程。生成的输出FASTQ文件的路径存储在出差槽段Sysargs.目的。在内部，Preprocessreads.用来FastqStreamer.从中的功能缩短通过以记忆有效的方式通过大型FASTQ文件来传输。以下示例使用带修剪的适配器trimlrpatterns.从中的功能生物仪器包裹。修剪步骤后，生成新的目标文件（此处targets_trim.txt.）包含修剪FASTQ文件的路径。新的目标文件可以用于更新的下一个工作流程步骤Sysargs.实例，使用修剪的FASTQ文件运行NGS对齐。

preprocessreads（args = args，fct =“trimlrpatterns（rpattern ='gcccgcgggtaa'，projects = fq）”，batchsize = 100000，overwrite = true，compress = true）writetargetsout（x = args，file =“targets_trim.txt”）

以下示例显示如何使用由提供的实用程序设计自定义读取预处理功能。缩短包，然后用批处理模式运行它'preprocessreads'功能（配对结束读数）。

args < -  systemargs（sysma =“trimpe.param”，mytargets =“targetspe.txt”）filterfct < - 函数（fq，cutoff = 20，nexceptions = 0）{qcount < -  rowsums（如（质量（fq），“矩阵“）<=截止）FQ [qcount <= nexceptions]＃保留读取的读取分数> =用n例外截止} preprocessreads（args = args，fct =”filterfct（fq，cutoff = 20，nexceptions = 0）“，batchsize = 100000）writetargetsout（x = args，file =“targets_petrim.txt”）

3.3FASTQ质量报告

以下seefastq.和seefastqplot.函数生成并绘制一系列有用的质量统计，一组FASTQ文件，包括每个周期质量盒绘图，基本比例，基础级质量趋势，相对k-mer多样性，长度和发生分布的读取，高于质量的读数数量截止和平均质量分布。

fqlist < -  seefastq（fastq = infile1（args），batchsize = 10000，klength = 8）pdf（“./结果/ fastqreport.pdf”，height = 18，宽度= 4 *长度（fqlist））seatfackot（fqlist）dev。离开（）

fastqreport.

QC报告对多核的单机报告的并行化

args < -  systemargs（sysma =“tophat.param”，mytargets =“targets.txt”）f <函数（x）seatfastq（fastq = infile1（args）[x]，batchsize = 100000，klength = 8）fqlist <-  BPLapply（SEQ（沿= args），f，bpparam = multicoreparam（workers = 8））seatfastqplot（解释（fqlist，recursive = false））

QC报告通过调度程序的并行化（例如扭矩）跨几个计算节点

图书馆（Biocomallel）;库（Batchjobs）f < -  function（x）{库（Systempiper）args < -  systemargs（systemargs（sysma =“tophat.param），mytargets =”targets.txt“）seatfastq（fastq = infile1（args）[x]，批量化= 100000，klength = 8）} Funs < -  makeClusterFunctionStorque（“torque.tmpl”）param < -  batchjobsparam（length（args），资源= list（walltime =“20:00:00”，节点=“1：PPN =1“，内存=”6GB“），cluster.functions = funs）寄存器（param）fqlist < -  bplapply（seq（沿= args），f）seatfastqplot（非签出（fqlist，recursive = false））

3.4对齐`TOPHAT2`

建造Bowtie2.指数。

args < -  systemargs（sysma =“tophat.param”，mytargets =“targets.txt”）MuduleLeload（模块（args））＃跳过如果模块系统不可用系统（“Bowtie2-Build./data/tair10.fasta。/data/tair10.fasta“）

执行Sysargs.在单个机器上，无需提交到计算群集的排队系统。这样，输入FASTQ文件将按顺序处理。如果可用，则可以使用多个CPU核心来处理每个文件。为每个进程使用的CPU核心（此处4）的数量定义为* .Param.文件。和核心（args）可以从中返回此值Sysargs.目的。注意，如果未安装或使用模块系统，则相应的系统* .Param.需要相应地编辑文件，可以通过在行开始的行中提供空字段模块或通过删除这些行。

Bampaths < -  runcommandline（args = args）

或者，通过使用群集的几个计算节点处理许多文件，可以大大加速计算，其中调度/排队系统用于负载平衡。为避免在计算节点上过度订阅CPU核心，因此值核心（args）将在此传递给提交命令节点在里面资源列表对象。在下面定义了独立并行群集进程的数量njobs.争论。以下示例将以每4个CPU内核并行运行18个进程。如果群集上可用的资源允许在同一时间运行所有18个进程，那么显示的示例提交将使用总共72个CPU内核。笔记，润滑瓶可以与大多数排队系统一起使用，因为它基于公用事业Batchjobs.支持使用模板文件的包* .tmpl.）用于定义不同调度仪的运行参数。要运行以下代码，需要有一个conf文件（见.batchjob.样本这里）和一个模板文件（见* .tmpl.样本这里）对于系统上可用的队列。以下示例使用此包提供的扭矩调度程序的示例conf和模板文件。

file.copy（system.file（“extdata”，“.batchjobs.r”，package =“systempiper”），“。”）file.copy（system.file（“extdata”，“torque.tmpl”，package =“systempiper”），“。”）资源< -  list（walltime =“20:00:00”，节点= paste0（“1：ppn =”，核心（args）），Memory =“10GB”）Reg < -clusterrun（args，conffile =“。batchjobs.r”，template =“torque.tmpl”，njobs = 18，runid =“01”，ResourceRist = Resources）WaitForJobs（REG）

用于监控提交工作进度的有用命令

showstatus（reg）file.exists（外部路径（args））sapply（1：length（args），函数（x）loadResult（Reg，x））＃工作完成后工作

3.5读取和对齐计数统计数据

生成所有样本的读取和对齐计数。

read_statsdf < -  alplentstats（args）write.table（read_statsdf，“结果/ sentealstats.xls”，row.names = false，quote = false，sep =“\ t”）

下面显示了由此提供的样本对齐统计文件的前四行Systempiper.包裹。为简单起见，PE读数的数量乘以2，以近似近似对准频率，其中计算每个读取的每个读取。

read.table（system.file（“extdata”，“alpionstats.xls”，package =“systempiper”），标题= true）[1：4，]

##文件名Nreads2x Nalign Perc_Aligned Nalign_Primary Perc_Aligned_Primary ## 1 M1A 192918 177961 92.24697 177961 92.24697 ## 2 M1B 197484 159378 80.70426 159378 80.70426 ## 3 A1A 189870 176055 92.72397 176055 92.72397 ## 4 A1B 188854 147768 78.24457 147768 78.24457

用多个核心单机读/对准统计的并行化

f <函数（x）alplenstats（args [x]）read_statslist < -  bpppply（seq（沿= args），f，bpparam = multidoreparam（workers = 8））read_statsdf < -  do.call（“rbind”，read_statslist）

通过调度程序（读取/对齐统计）的并行化（例如扭矩）跨几个计算节点

图书馆（Biocomallel）;库（Batchjobs）f < -  function（x）{库（systempiper）args < -  systemargs（systemargs（sysma =“tophat.param），mytargets =”targets.txt“）alplenstats（args [x]）} funs < -  makeClusterFunctionStorque（“torque.tmpl”）param < -  batchjobsparam（length（args），资源= list（walltime =“20:00:00”，节点=“1：ppn = 1”，Memory =“6GB”），Cluster.Functions=乐趣）寄存器（param）read_statslist < -  bpppply（seq（沿= args），f）read_statsdf < -  do.call（“rbind”，read_statslist）

3.6创建用于在IGV中查看BAM文件的符号链接

基因组浏览器IGV通过Web URL支持读取索引/排序的BAM文件。这样可以避免创建这些大文件的不必要的副本。要启用此方法，请在用户帐户中提供具有HTTP访问的HTML目录（例如主页/ publichtml.）系统。如果不是这种情况，则需要将BAM文件移动或复制到IGV运行的系统。在下面的，htmldir.使用HTTP访问定义HTML目录的路径，其中将存储与BAM文件的符号链接。相应的URL将写入指定的文本文件_URLFILE._ 争论。

symlink2bam（sysargs = args，htmldir = c（“〜/ .html /”，“somedir /”），urlbase =“http://myserver.edu/~username/”，Urlfile =“igvurl.txt”）

3.7替代NGS对齐器

3.7.1对齐`Bowtie2.`（例如对于miRNA分析）

以下示例运行Bowtie2.作为一个过程，无需将其提交给群集。

args < -  systemargs（sysma =“bowtiese.param”，mytargets =“targets.txt”）modulexoad（模块（args））＃跳过如果模块系统不可用BAMPATHS < -  runcommandline（args = args）

或者，将作业提交以计算节点。

qsubargs < -  getqsubargs（queue =“batch”，cores =核心（args），memory =“mem = 10gb”，time =“walltime = 20：00：00”）（Joblist < -  qsubrun（args = args，qsubargs =QSUBARGS，NQSUBS = 18，包=“Systempiper”）））

3.7.2与BWA-MEM对齐（例如对于var-seq）

以下示例将BWA-MEM作为单个进程运行，而无需将其提交给群集。

args < -  systemargs（systemargs（sysma =“bwa.param”，mytargets =“targets.txt”）mumulexoad（模块（args））＃跳过如果模块系统不可用系统（“bwa index -a bwtsw./data/tair10。FASTA“）＃索引参考基因组BAMPATHS < -  runcommandline（args = args）

3.7.3.与rsubread对齐（例如对于RNA-SEQ）

以下示例显示了如何在环境中使用基于R的对齐器或从输入文件读取的基于R的函数并写入输出文件。

库（rsubread）args < -  systemargs（systemargs（sysma =“rsubread.param”，mytargets =“targets.txt”）buildIndex（BaseName = Reference（Args），Reference = Reference（Args））＃构建索引参考基因组对齐（索引=参考（args），readfile1 = infile1（args），input_format =“fastq”，output_file = outfile1（args），output_format =“sam”，nthreads = 8，indels = 1，th1 = 2）（i在seq（沿）= Outfile1（args）））ASBAM（File = Outfile1（args）[i]，destination = gsub（“sam”，“”，Outfile1（args）[i]），覆盖= true，indexdestination = true）

3.7.4对齐`GSNAP.`

另一个基于R的短读对准器是GSNAP.来自GMAPR.包裹（吴和NACU 2010）。下面的代码示例介绍了如何在计算群集的多个节点上运行此对齐器。

图书馆（GMAPR）;图书馆（Biocomallel）;库（Batchjobs）GMAPGenome < -  GMAPGenome（参考（args），directory =“data”，name =“gmap_tair10chr /”，create = true）args < -  systemargs（systemargs（systemargs（sysma =“gsnap.param），mytargets =”targetspe.txt“）f < - 函数（x）{库（gmapr）;库（Systempiper）args < -  systemargs（systemargs（sysma =“gsnap.param”，mytargets =“targetspe.txt”）GMAPGenome < -  GMAPGenome（参考（args），目录=“data”，name =“gmap_tair10chr /”，create =false）p < -  gsnapparam（genome = gmapenome，unique_only = true，分子=“DNA”，max_mismatches = 3）O < -  gsnap（input_a = infile1（args）[x]，input_b = infile2（args）[x]，params = p，输出= outfile1（args）[x]）} funs < -  makeClusterfunctionstorque（“torque.tmpl”）param < -  batchjobsparam（length（args），资源= list（walltime =“20:00:00”，节点=“1：ppn = 1”，Memory =“6GB”），Cluster.Functions = Funs）寄存器（PARAM）D < -  BPLAPPLY（SEQ（沿= args），f）

4.用于单机的VAR-SEQ工作流程

4.1生成工作流模板

将其中一个可用的ngs工作流入当前的工作目录（此处for Varseq）。

Genworkenvir（Workflow =“Varseq”）Setwd（“Varseq”）

4.2运行工作流程

接下来，运行所选的示例工作流程systempipevarseq_single.（PDF.那rnw.）通过从命令行执行制作-b.在这内varseq.目录。或者，可以从提供的代码运行代码* .rnw.以交互式r内的模板文件。提供更多详细信息Systempiper.有空的概述和工作流鹅卵石这里。

5.计算机集群的VAR-SEQ工作流程（演示）

此演示将在IIGB的HPC集群的多个计算机节点上并行运行上述var-seq工作流。为此提供的工作流模板被称为systempipevarseq.rnw.（PDF.那rnw.）。

6.`sessioninfo（）`

sessioninfo（）

## R 3.2.1（2015-06-18）##平台：X86_64-Unknown-Linux-GNU（64位）##正在运行：Ubuntu 14.04.2 LTS ### locale：## [1] lc_ctype = en_us.utf-8 lc_numeric = c lc_time = en_us.utf-8 ## [4] lc_collate = c lc_monetary = en_us.utf-8 lc_messages = en_us.utf-8 ## [7] lc_paper = en_us.utf-8 lc_name = c lc_address = c ## [10] lc_telephone = c lc_measurement = en_us.utf-8 lc_identification = c ## ##附加基本包：## [1]并行stats4统计图形grdevices utils datasets base ####其他附加包：## [1] ggplot2_1.0.1 systempiperdata_0.99.2 systempiper_1.3.16 ## [4] rsqlite_1.0.0 dbi_0.3.1 shortread_1.27.5 ## [7] Genomicalignments_1.5.11汇总_0.3.2 biobase_2.29.1 ##[10] Biocparallel_1.3.34 RsamTools_1.21.14 BioStrings_2.37.2 ## [13] XVector_0.9.1 GenomicRanges_1.21.16 GenomeinfodB_1.5.8 ## [16]讽刺_2.3.14 S4Vectors_0.7.10 Biocgenerics_0.15.3 ## [19] Biocstyle_1.7.4 ####通过命名空间加载（且未附加）：## [1] RCPP_0.11.6 Lattice_0.20-33 Go。db_3.1.2 digest_0.6.8 ## [5] plyr_1.8.3 futile.options_1.0.0 batejobs_1.6 evaluate_0.7 ## [9] zlibbioc_1.15.0 annotate_1.47.1 matrix_1.2-2 checkmate_1.6.1 ## [13] RmarkDown_0.7 proto_0.3-10 gostats_2.35.1 vetlins_3.2.1 ## [17] stringr_1.0.0 pheatmap_1.0.7 munsell_0.4.2 sendmailr_1.2-1 ## [21] base64enc_0.1-2 bbmisc_1.9 htmltools_0.2.6 fail_1。2 ## [25] Edger_3.11.2 CodeTools_0.2-14 XML_3.98-1.3 AnnotationForge_1.11.12 ## [29] Crayon_1.3.1 Mass_7.3-43 Bitops_1.0-6 Grid_3.2.1 ## [33] RBGL_1。4.5.。1xtable_1.7-4 GSEABase_1.31.3 gtable_0.1.2 ## [37] magrittr_1.5 formatR_1.2 scales_0.2.5 graph_1.47.2 ## [41] stringi_0.5-5 hwriter_1.3.2 reshape2_1.4.1 genefilter_1.51.0 ## [45] testthat_0.10.0 limma_3.25.13 latticeExtra_0.6-26 futile.logger_1.4.1 ## [49] brew_1.0-6 rjson_0.2.15 lambda.r_1.1.7 RColorBrewer_1.1-2 ## [53] tools_3.2.1 Category_2.35.1 survival_2.38-3 yaml_2.1.13 ## [57] AnnotationDbi_1.31.17 colorspace_1.2-6 memoise_0.2.1 knitr_1.10.5

参考

Girke，Thomas。2014。“系统佩尔：NGS工作流程和报告生成环境。”UC河畔。https://github.com/tgirke/systempiper.。

霍华德，Brian E，齐文胡岛，艾哈迈克·哈梅拉，Manan Chandra，Monica Borghi，Xiaoping Tan，Luyan He，等。“Pseudomonas拟南芥的高通量RNA测序揭示了隐藏的转录组复杂性和新型剪接变异。”普罗斯一体8（10）：E74183。DOI：10.1371 / journal.pone.0074183.。

Kim，Daehwan，Geo Pertea，Cole Trapnell，Harold Pimentel，Ryan Kelley和Steven L Salzberg。“TOPHAT2：在存在插入，缺失和基因融合的情况下，转录om的准确对准。”基因组Biol。14（4）：R36。DOI：10.1186 / GB-2013-14-4-R36。

Langmead，Ben和Steven L Salzberg。2012年。“与Bowtie 2的快速读写读取对齐2.”NAT。方法9（4）。自然出版组：357-59。DOI：10.1038 / nmeth.1923。

Lawrence，Michael，Wolfgang Huber，HervéPagès，Patrick Aboyoun，Marc Carlson，Robert绅士，Martin T Morgan和Vincent J Carey。2013.“用于计算和注释基因组范围的软件。”Plos计算。BIOL。9（8）：E1003118。DOI：10.1371 / journal.pcbi.1003118.。

李，h，和r durbin。“与挖掘机轮车变换快速准确的简短读取对齐。”生物信息学25（14）：1754-60。DOI：10.1093 / Bioinformatics / BTP324。

李，恒。“用BWA-MEM将”对齐序列读取，克隆序列和装配体变性“。arxiv [q-bio.gn]。http://arxiv.org/abs/1303.3997.。

廖，杨，戈登k斯明，和魏世。2013年。“底座对齐器：种子和投票的快速，准确和可扩展的读取映射。”核酸RES。41（10）：E108。DOI：10.1093 / nar / gkt214。

wu，t d和s nacu。2010年。“短暂读取的复杂变种和拼接的快速和SNP耐受检测。”生物信息学26（7）：873-81。DOI：10.1093 / Bioinformatics / BTQ057。

Systempiper.：NGS工作流程和报告环境

在单个机器上运行并计算群集。- 今天的重点：var-seq

作者：Thomas Girke

日期：2015年7月22日

内容

1介绍

2入门

2.1安装

2.2加载包和文档

2.3示例FASTQ文件

2.4结构的结构`目标`文件

2.5结构的结构`目标`配对结束的文件（PE）样本

2.6样本比较

2.7结构的结构`帕纳`文件和`Sysargs.`容器

3.工作流程概述

3.1定义环境设置和样本

3.2读取预处理

3.3FASTQ质量报告

3.4对齐`TOPHAT2`

3.5读取和对齐计数统计数据

3.6创建用于在IGV中查看BAM文件的符号链接

3.7替代NGS对齐器

3.7.1对齐`Bowtie2.`（例如对于miRNA分析）

3.7.2与BWA-MEM对齐（例如对于var-seq）

3.7.3.与rsubread对齐（例如对于RNA-SEQ）

3.7.4对齐`GSNAP.`

4.用于单机的VAR-SEQ工作流程

4.1生成工作流模板

4.2运行工作流程

5.计算机集群的VAR-SEQ工作流程（演示）

6.`sessioninfo（）`

参考

Systempiper.：NGS工作流程和报告环境

在单个机器上运行并计算群集。- 今天的重点：var-seq

作者：Thomas Girke

日期：2015年7月22日

内容

1介绍

2入门

2.1安装

2.2加载包和文档

2.3示例FASTQ文件

2.4结构的结构目标文件

2.5结构的结构目标配对结束的文件（PE）样本

2.6样本比较

2.7结构的结构帕纳文件和Sysargs.容器

3.工作流程概述

3.1定义环境设置和样本

3.2读取预处理

3.3FASTQ质量报告

3.4对齐TOPHAT2

3.5读取和对齐计数统计数据

3.6创建用于在IGV中查看BAM文件的符号链接

3.7替代NGS对齐器

3.7.1对齐Bowtie2.（例如对于miRNA分析）

3.7.2与BWA-MEM对齐（例如对于var-seq）

3.7.3.与rsubread对齐（例如对于RNA-SEQ）

3.7.4对齐GSNAP.

4.用于单机的VAR-SEQ工作流程

4.1生成工作流模板

4.2运行工作流程

5.计算机集群的VAR-SEQ工作流程（演示）

6.sessioninfo（）

参考

2.4结构的结构`目标`文件

2.5结构的结构`目标`配对结束的文件（PE）样本

2.7结构的结构`帕纳`文件和`Sysargs.`容器

3.4对齐`TOPHAT2`

3.7.1对齐`Bowtie2.`（例如对于miRNA分析）

3.7.4对齐`GSNAP.`

6.`sessioninfo（）`