本教程简要介绍了附带的命令行工具PureCN.这些工具实现了强烈推荐的最佳实践。有关R包和更详细的信息,请参阅主要插图。
PureCN 2.5.0
PureCN向后兼容版本1.16及更高版本生成的输入。对于1.8到1.14版本,请重新运行NormalDB。R
(另见下文):
$ Rscript $PURECN/NormalDB。R——out-dir$OUT_REF \ --coverage-files example_normal_coverages.list \ --genome hg19 --normal-panel $NORMAL_PANEL --assay agilent_v6
当使用——模型betabin
在PureCN。R
,我们建议所有以前的版本重新创建映射偏差数据库重新运行NormalDB。R
:
#只重建映射偏差文件$ Rscript $PURECN/NormalDB。R——out-dir$OUT_REF \ --genome hg19 --normal-panel $NORMAL_PANEL --assay agilent_v6
对于1.6版的升级,我们强烈建议按照本教程从头开始。
对于本教程中描述的命令行脚本,我们需要安装PureCN使用建议的依赖项:
如果(!requireNamespace("BiocManager", quiet = TRUE)) install.packages("BiocManager") BiocManager::install("PureCN", dependencies = TRUE)
或者,手动安装命令行脚本所需的包:
BiocManager::install(c("PureCN", "optparse", "R.utils", " txdb . hspapiens . ucsc .hg19. "knownGene”、“org.Hs.eg.db”))
(替换hg19
你的基因组版本)。
使用替代方案,并在许多情况下被推荐PSCBS市场细分:
#默认PSCBS不支持间隔权重BiocManager::install("PSCBS") #补丁PSCBS支持间隔权重BiocManager::install("lima1/PSCBS", ref="add_dnacopy_weighting")
调用突变签名,安装GitHub版本的deconstructSigs包:
BiocManager:安装(“raerose01 / deconstructSigs”)
对于导入变量调用的实验支持GATK4 GenomicsDB,按照安装说明安装GenomicsDB-R.
的GATK4分割需要gatk
二进制路径。支持4.1.7.0及更新版本。
系统。file("extdata", package = "PureCN")
## [1] "/tmp/Rtmpb6k6Sg/Rinst319bfa6d393f61/PureCN/extdata"
$ Rscript $PURECN/ PURECN . extdata ="/path/to/ PURECN/ extdata"R——help使用方法:“/path/to/PureCN/inst/extdata/PureCN. R”。R[选项]…
#指定PureCN存放引用文件的路径$ export OUT_REF="reference_files" $ Rscript $ PureCN /IntervalFileR——in-file baits_hg19。床——fasta hg19。fa——out-file $OUT_REF/ baits_hg19_logs .txt \——off-target——genome hg19 \——export $OUT_REF/baits_optimized_hg19. txt——mappability wgEncodeCrgMapabilityAlign100mer。bigWig \——reptiming wgEncodeUwRepliSeqK562WaveSignalRep1.bigWig
在内部,该脚本使用rtracklayer要解析——文件内部
.请确保文件格式与文件扩展名匹配。看到rtracklayer关于加载文件问题的文档。检查鱼饵文件的基因组版本是否与参考文献相匹配。不要包括chrM诱饵,以防捕获套件包括一些。
我们不建议手动填充诱饵文件,除非覆盖率非常低(<30X),其中填充区域增加的计数可能会略微降低抽样方差。请注意,我们强烈建议使用至少50bp的填充来运行变体调用器,以增加信息性snp的数量,参见下面的VCF部分。仔细检查基因组版本——文件内部
是正确的-许多分析仍然使用旧的引用设计,可能需要提升到管道引用。如果可能的话,不要使用包含目标外显子的BED文件,而是使用诱饵的坐标。这些优化了gc含量和可映射性,并将产生更清洁的覆盖配置文件。
的——非目标
标志将包括脱靶读取。除了Amplicon数据外,建议包含它们。对于全外显子组数据,获益通常也有限,除非检测效率低,脱靶读取率高(>10-15%)。
的——基因组
用基因符号注释外显子需要版本。人类基因组使用hg19/hg38,而不是b37/b38。您可能会收到缺少注释包的警告。对于hg19,安装TxDb.Hsapiens.UCSC.hg19.knownGene在R。
的——出口
参数是可选的。如果提供了,这个脚本将把修改后的间隔存储为BED文件rtracklayer支持格式)。当使用第三方工具(如GATK)计算覆盖率时,这很有用。
的——mappability
参数应提供rtracklayer在第一个元数据列中具有可映射性得分的可解析文件。如果提供,脱靶区域将被限制在此文件中指定的区域。映射能力低的目标区域将被排除。对于hg19,请从UCSC网站下载。选择最适合平均映射读长度的kmer大小。对于hg38,请通过Waldron实验室下载推荐的76 kmer或100 kmer映射文件:
有关如何生成这样一个文件以供其他参考的说明,请参阅主要插图的FAQ部分。
类似地,——reptiming
参数接受相同格式的复制计时分数。如果提供,则测试gc标准化和日志转换覆盖率与此分数的线性关系,并相应地进行标准化。这是可选的,只提供了一个小的好处覆盖正常化,但可以识别高增殖样本。需要——非目标
成为有用的人。
PureCN没有与变体调用程序一起发布。使用第三方工具为每个示例生成一个VCF。
重要的建议:
使用MuTect 1.1.7如果可能的话;Mutect 2从GATK 4.1.7 +现在是alpha和vcf生成的最佳实践躯体工作流应该工作(早些时候Mutect 2版本不受支持,将无法工作)。
其他肿瘤患者的vcf,比如VarScan2而且FreeBayes支持,但是只对这些调用者执行非常有限的工件筛选。确保提供经过过滤的vcf。有关与输入数据相关的常见问题和问题,请参阅主插图中的常见问题一节。
由于需要种系SNPs来推断等位基因特异性拷贝数,所提供的VCF需要同时包含体细胞和种系变体。确保上游过滤不会去除高质量的snp,特别是由于存在于生殖系数据库中。Mutect 1.1.7自动调用snp,但是Mutect 2没有。确保运行Mutect 2与——基因型-生殖系-位点为真——基因型-桥-位点为真
.如果没有这些标志,您将无法获得可用的输出。
运行具有50-75碱基对间隔填充的变体调用器,以增加杂合snp的数量(例如——interval_padding
而且——interval-padding
在Mutect 1.1.7而且Mutect 2分别)。对于超过1000X的非常高的覆盖率,将这个值增加到200bp是安全的。
以下描述PureCN运行内部拷贝数归一化和分割。
你需要:
上面生成的间隔文件
肿瘤样本的BAM文件。
正常示例的BAM文件(请参阅主要小插图以获得建议)。这些正常样本不需要与肿瘤样本进行患者匹配,但需要进行处理匹配(通过相同的比对管道进行相同的检测,理想情况下在同一实验室进行测序)。
上面生成的所有肿瘤和正常BAM文件的VCF文件
对于每个样本,肿瘤和正常,计算gc归一化覆盖率:
#从BAM文件$ Rscript $PURECN/ coverage中计算和GC-normalize覆盖率。R——OUT -dir $OUT/$SAMPLEID \——bam ${SAMPLEID}。bam \——interval $OUT_REF/baits_hg19_interval .txt
与GATK类似,此脚本还接受一个包含BAM或覆盖文件名列表的文本文件(每行一个)。文件扩展名必须为.list
:
#从BAM文件$ Rscript $PURECN/ coverage列表中计算和GC-normalize覆盖率。R——OUT -dir $OUT/normals \——bam normals。list \——interval $OUT_REF/baits_hg19_interval .txt \——cores
重要的建议:
只提供——keep-duplicates
orgydF4y2Ba——remove-mapq0
如果你知道你在做什么,并且总是使用相同的命令行参数肿瘤和正常
不做气相色谱常规检查是安全的——skip-gc-norm
当肿瘤和正常样本预期表现出相似的偏差,并且有足够数量的正常样本可用时。等离子体测序就是一个很好的例子。相比之下,与血液对照相比,旧的FFPE样本更有可能受益于gc正常化。
gc正常化的潜在负面影响更有可能出现在非常小的目标面板(< 0.5Mb)中,值得进行基准测试。
当使用受支持的第三方工具来计算覆盖率时(目前CNVkit,GATK3而且GATK4),可以用匹配的间隔文件GC-normalize这些覆盖:
# GC-normalize覆盖从GATK DepthOfCoverage文件Rscript $PURECN/ coverage。R——OUT -dir $OUT/$SAMPLEID \——coverage ${SAMPLEID}.coverage。sample_interval_summary \——interval $OUT_REF/baits_hg19_interval .txt
为了建立一个常规的覆盖标准化数据库,在一个文本文件中逐行复制所有(gc标准化)常规覆盖文件的路径:
ls -a $OUT/ normal_coverages /*_loess.txt.gz | cat > example_normal_coverages. gz如果没有GC-normalization执行:# ls -a $OUT/normals/*_coverage.txt.gz | cat > example_normal_coverages. gzlist $ Rscript $PURECN/NormalDB。R——out-dir$OUT_REF \ --coverage-files example_normal_coverages.list \ --genome hg19 --assay agilent_v6 # When normal panel VCF is available (highly recommended for # unmatched samples) $ Rscript $PURECN/NormalDB.R --out-dir $OUT_REF \ --coverage-files example_normal_coverages.list \ --normal-panel $NORMAL_PANEL \ --genome hg19 \ --assay agilent_v6 # For a Mutect2/GATK4 normal panel GenomicsDB (beta) $ Rscript $PURECN/NormalDB.R --out-dir $OUT_REF \ --coverage-files example_normal_coverages.list \ --normal-panel $GENOMICSDB-WORKSPACE-PATH/pon_db \ --genome hg19 \ --assay agilent_v6
重要的建议:
当差异显著时,考虑生成不同的数据库,例如对于具有不同读取长度或插入大小分布的样本
特别要注意的是,不要将不同的捕获套件(例如:安捷伦sureelect v4而且v6)
在这里提供一个正常的面板VCF来预计算映射偏差,以获得更快的运行时间。VCF的唯一要求是广告
格式字段,包含所有样本的引用数和Alt读数。参见示例文件$ PURECN / normalpanel.vcf.gz
.
为了获得理想的结果,请检查interval_weights.png
文件找到良好的脱靶仓宽度。您需要重新运行IntervalFile。R
与——average-off-target-width
参数化并重新计算覆盖率。NormalDB。R
也将给出一个好的最小宽度的建议。我们不建议低于这个估计值;设置——average-off-target-width
值大于此值可以以降低分辨率为代价降低噪声。将其设置为最小推荐值的1.2-1.5倍(理想情况下应该小于250kb)是一个很好的起点。
的——分析
参数是可选的,仅用于将提供的化验名称添加到所有输出文件
警告指出可能使用了错误的诱饵文件,这意味着超过5%的目标在所有正常样本中覆盖率接近于0。将在中生成具有低覆盖率目标的BED文件——out-dir
.如果由于任何原因无法访问正确的文件,建议重新运行IntervalFile。R
命令并为该BED文件提供——排除
.
现在已经创建了特定于分析的文件,并且计算了所有的覆盖范围,我们开始运行PureCN归一化,分割并确定纯度和倍性:
mkdir $OUT/$SAMPLEID #没有匹配的正常(最小测试运行)$ Rscript $PURECN/ PURECN。R——从$OUT/$SAMPLEID \ --tumor $OUT/$SAMPLEID/${SAMPLEID}_coverage_loess.txt.gz \ --sampleid $SAMPLEID \ --vcf ${SAMPLEID}_mutect.vcf \ --normaldb $OUT_REF/normalDB_hg19.rds \ --intervals $OUT_REF/baits_hg19_intervals.txt \ --genome hg19 # Production pipeline run $ Rscript $PURECN/PureCN.R --out $OUT/$SAMPLEID \ --tumor $OUT/$SAMPLEID/${SAMPLEID}_coverage_loess.txt.gz \ --sampleid $SAMPLEID \ --vcf ${SAMPLEID}_mutect.vcf \ --stats-file ${SAMPLEID}_mutect_stats.txt \ --fun-segmentation PSCBS \ --normaldb $OUT_REF/normalDB_hg19.rds \ --mapping-bias-file $OUT_REF/mapping_bias_hg19.rds \ --intervals $OUT_REF/baits_hg19_intervals.txt \ --snp-blacklist hg19_simpleRepeats.bed \ --genome hg19 \ --model betabin \ --force --post-optimize --seed 123 # With a matched normal (test run; for production pipelines we recommend the # unmatched workflow described above) $ Rscript $PURECN/PureCN.R --out $OUT/$SAMPLEID \ --tumor $OUT/$SAMPLEID/${SAMPLEID}_coverage_loess.txt.gz \ --normal $OUT/$SAMPLEID/${SAMPLEID_NORMAL}_coverage_loess.txt.gz \ --sampleid $SAMPLEID \ --vcf ${SAMPLEID}_mutect.vcf \ --normaldb $OUT_REF/normalDB_hg19.rds \ --intervals $OUT_REF/baits_hg19_intervals.txt \ --genome hg19 # Recreate output after manual curation of ${SAMPLEID}.csv $ Rscript $PURECN/PureCN.R --rds $OUT/$SAMPLEID/${SAMPLEID}.rds
重要的建议:
即使匹配的法线可用,使用普通数据库进行覆盖规范化通常也更好。当提供匹配的正常覆盖时——正常
然后正常覆盖池归一化和去噪步骤被跳过!
始终提供正常覆盖率数据库,以忽略分割中的低质量区域,并增加对高纯度样品中纯合子缺失的敏感性。
再次检查——肿瘤
而且——normaldb
时,gc归一化或用于(* _loess.txt.gz
)或两者都跳过(* _coverage.txt.gz
).
法线面板VCF文件对于映射偏差校正非常有用,特别推荐没有匹配法线的情况。请参阅如何生成此文件的主要小插图的常见问题。它对于测试运行不是必需的。
的MuTect 1.1.7stats文件(VCF之外的主要输出文件)应该提供更好的工件过滤。如果VCF是由执行良好的工件过滤的管道生成的,则不需要此文件。不提供此文件为Mutect 2.
的——post-optimize
Flag定义纯度应同时使用变异等位基因分数和拷贝数来优化,而不是仅使用拷贝数。这导致整个外显子组数据的运行时间显著增加。
如果——从
是一个目录,它将使用示例id作为所有输出文件的文件前缀。否则PureCN将使用——从
作为前缀。
的——平行
标志将启用局部最优的并行拟合。看到BiocParallel获取详细信息。该脚本将使用默认后端。——核心
是使用指定数量的cpu而不是默认后端的捷径。只指定两个参数中的一个。请注意,内存使用会随着内核数量的增加而线性增加,内存不足会导致随机崩溃。
——fun-segmentation PSCBS
是1.22中的新建议。对间隔权重的支持目前需要一个补丁(参见第1节)1.2).关于该方法的最佳选择,请参阅下面的详细信息。
——模型betabin
是1.22中的新建议,具有更大的正常样本(超过10-15个正常样本)。
默认值被很好地校准,对于大多数样本应该产生接近理想的结果。更改默认值是有意义的一些常见情况:
高纯度和高质量:对于期望纯度较高的癌症类型,如卵巢癌,并且当期望质量非常好时(高覆盖率,年轻样本),——max-copy-number 8
.(PureCN报告大于此值的拷贝数,但将停止将SNP等位基因分数拟合到精确的等位基因特定的拷贝数,因为这将在高拷贝数下很快变得不可能-并且计算成本很高。)
小面板,高覆盖率:——interval-padding 100
(或更高),需要运行带有此填充或没有间隔文件的变量调用者。对法线VCF面板使用相同的设置,以便侧翼区域的snp有可靠的映射偏差估计。的——max-homozygous-loss
参数可能还需要一些调整非常小的面板,周围捕获的删除有很大的差距。
细胞系:安全地跳过在细胞系中寻找低纯度溶液:——max-copy-number 8
,——min-purity 0.9
,——max-purity 0.99
.添加——model-homozygous
在没有正常污染的样品中找到LOH区域(当VCF中有匹配的正常数据时,不提供此标志)。
cfDNA:——min-purity 0.1
,——min-af 0.01
(或更低)和——错误0.0005
(或者更低,当有基于ui的错误修正时)。请注意,当真实纯度低于5-7%时,估计纯度可能非常错误;这些样本通常被标记为非异常。
所有化验:——max-segments
应设置为一个值,以便除少数例外情况外,只有质量较差的样品超过此截止值。对于异质性高的癌型,也建议增加——max-non-clonal
到0.3-0.4(这将显著增加全外显子组数据的运行时间)。
分割函数的选择也会产生显著的差异,不幸的是,目前还没有一种通用的方法在所有情况下都是最好的。
PSCBS:一个很好的和安全的起点,特别是在偏离目标的区域,与目标区域相比,可能会表现出不同的噪声分布。
GATK4:最新添加。还没有经过很好的测试PureCN,但从理论上来说,每个间隔的snp数量更大是最好的选择,例如带有拷贝数主干的分析。我们感谢反馈。
CBS:简单,快速,经过良好测试。不完全支持SNP信息,因此仅建议用于SNP /间隔比非常小的设置,例如具有健康脱靶覆盖的小型目标面板(<1Mb)(分辨率<150kb,与目标相比具有类似的日志比噪声)。
copynumber:用于有多个时间点或活检的病例。这是
自动选择——additional-tumors
目前不支持单样本分析。
Hclust/none:用于第三方分割。Hclust
为了校准染色体之间的对数比,没有一个
很大程度上保持了所提供的一切。
对于检查是否PureCN设置是正确的:
对于高质量数据,日志文件中报告的“log-ratio的平均标准偏差”应该相当低。旧的FFPE数据可以在0.4左右,但高覆盖率,相对较新的样本应该接近0.15的最小值。如果off-target的噪声始终比on-target大,可能值得增加off-target bin的大小并从头开始(或者在全外显子组测序的情况下,忽略off-target读取,因为当bin很大和/或有噪声时,它们不能提供太多额外的信息)。
与此相关,当所有通过过滤器的间隔中不到10%是脱靶间隔时抛出警告。全外显子组测序通常在这个值附近。如果对数比标准差与目标区域相似,甚至低于目标区域,则值得保留偏离目标区域。否则,偏离目标可能会增加更多的噪音而不是信号。当所有区间的及格率低于5%时,将自动忽略脱靶信息。
具有SNPs的靶标比例应在10% ~ 15%之间。如果它明显较低,请确保变量调用者使用50-100bp间隔填充或根本没有间隔文件。还要检查间隔文件是使用诱饵坐标生成的,而不是目标(诱饵BED文件应该有更均匀的大小分布,例如120bp和它的倍数)。
日志文件中的“重大样品交叉污染的初始测试”不应该有很多假阳性,即对于大多数样品应该是“不太可能”,而不是“可能”。不充分的伪影去除会导致太多具有低等位基因分数的错误snp调用,混淆了污染调用者。
阅读所有警告。
我们的内部PureCN标准化结合PSCBSorgydF4y2BaGATK4细分应该产生极具竞争力的结果,我们鼓励用户尝试并将其与现有渠道进行比较。然而,我们意识到在生产管道中更换工具通常不是一个选择,因此我们使其相对易于使用PureCN使用第三方工具。我们为CNVkit而且GATK4它应该是简单的适应其他工具。
你需要:
第三方工具输出(详见下文)
所有肿瘤样本的VCF文件和一些正常文件(有关所需正常样本的问题见主插图)
如果你已经从第三方工具(例如CNVkit,GATK4,EXCAVATOR2).对于最小的测试运行:
Rscript PURECN / PURECN美元。R——从$OUT/$SAMPLEID \ --sampleid $SAMPLEID \ --seg-file $OUT/$SAMPLEID/${SAMPLEID}.cnvkit.seg \ --vcf ${SAMPLEID}_mutect.vcf \ --intervals $OUT_REF/baits_hg19_intervals.txt \ --genome hg19
有关更多细节和文件格式,请参阅主要插图。
对于生产流水线运行,我们再次提供更多关于分析和基因组的信息。这里一个CNVkit例子:
#建议:提供一个正常的面板VCF,以消除映射偏差,预计算#特定位置的偏差,以更快地运行大面板的运行时间#这只需要为每个测试Rscript $PURECN/NormalDB做一次。R——out-dir$OUT_REF --normal-panel $NORMAL_PANEL \ --assay agilent_v6 --genome hg19 --force # Export the segmentation in DNAcopy format cnvkit.py export seg $OUT/$SAMPLEID/${SAMPLEID}_cnvkit.cns --enumerate-chroms \ -o $OUT/$SAMPLEID/${SAMPLEID}_cnvkit.seg # Run PureCN by providing the *.cnr and *.seg files Rscript $PURECN/PureCN.R --out $OUT/$SAMPLEID \ --sampleid $SAMPLEID \ --tumor $OUT/$SAMPLEID/${SAMPLEID}_cnvkit.cnr \ --seg-file $OUT/$SAMPLEID/${SAMPLEID}_cnvkit.seg \ --mapping-bias-file $OUT_REF/mapping_bias_agilent_v6_hg19.rds \ --vcf ${SAMPLEID}_mutect.vcf \ --stats-file ${SAMPLEID}_mutect_stats.txt \ --snp-blacklist hg19_simpleRepeats.bed \ --genome hg19 \ --fun-segmentation Hclust \ --force --post-optimize --seed 123
重要的建议:
的——fun-segmentation
参数控制数据是否应该使用种系BAFs重新分段(默认)。将此值设置为没有一个
是否应按原样使用所提供的分段。推荐的Hclust
将只集群提供的段。
自CNVkit中提供所有必要的信息* .cnr
输出文件,——时间间隔
参数不是必需的。
在测试运行中,特别是当输入VCF包含匹配的正常信息时,——mapping-bias-file
可以跳过
CNVkit不建议在没有正常参考样本的情况下运行
的——stats文件
仅支持Mutect 1.1.7.Mutect 2直接在VCF中提供过滤器标志。
#建议:提供一个正常的面板基因组数据库,以消除映射#偏差,预计算位置特定偏差,以更快地运行时间#与大型面板。每次试验只需要做一次。Rscript PURECN / NormalDB美元。R——out-dir$OUT_REF \ --normal-panel $GENOMICSDB-WORKSPACE-PATH/pon_db \ --assay agilent_v6 --genome hg19 --force Rscript $PURECN/PureCN.R --out $OUT/$SAMPLEID \ --sampleid $SAMPLEID \ --tumor $OUT/$SAMPLEID/${SAMPLEID}.hdf5 \ --log-ratio-file $OUT/$SAMPLEID/${SAMPLEID}.denoisedCR.tsv \ --seg-file $OUT/$SAMPLEID/${SAMPLEID}.modelFinal.seg \ --mapping-bias-file $OUT_REF/mapping_bias_agilent_v6_hg19.rds \ --vcf ${SAMPLEID}_mutect2_filtered.vcf \ --snp-blacklist hg19_simpleRepeats.bed \ --genome hg19 \ --fun-segmentation Hclust \ --force --post-optimize --seed 123
重要的建议:
的——fun-segmentation
在大多数情况下可以设置为none。这将在很大程度上保持分割。Hclust
聚类片段,以避免过度分割和校准跨染色体的对数比。因此,这将改变GATK4分割,这可能不是我们所希望的。
Beta版支持,提供CollectAllelicCounts输出而不是Mutect是可用的。使用——vcf $ {SAMPLEID} .allelicCounts.tsv
自动导入SNP计数并将其转换为受支持的VCF。注意,这将不会使用任何体细胞SNV和indel信息可用Mutectvcf,因此也不会提供任何克隆注释。
Dx。R
提供通常用作生物标志物的拷贝数和突变指标,最重要的是肿瘤突变负担(TMB),染色体不稳定性(CIN)和突变特征。
提供一个包含可调用区域的BED文件,例如通过# GATK CallableLoci获得的文件。用于计算每兆酶突变数和#以排除低质量区域。grep CALLABLE ${SAMPLEID}_callable_status。bed > \ ${SAMPLEID}_callable_status_filtered。bed #只计算可调用区域的突变,也减去在PureCN中被忽略的突变。Rvia --snp-blacklist, like simple repeats, from the # mutation per megabase calculation # Also search for the COSMIC mutation signatures # (http://cancer.sanger.ac.uk/cosmic/signatures) Rscript $PureCN/Dx.R --out $OUT/$SAMPLEID/$SAMPLEID \ --rds $OUT/SAMPLEID/${SAMPLEID}.rds \ --callable ${SAMPLEID}_callable_status_filtered.bed \ --exclude hg19_simpleRepeats.bed \ --signatures # Restrict mutation burden calculation to coding sequences Rscript $PureCN/FilterCallableLoci.R --genome hg19 \ --in-file ${SAMPLEID}_callable_status_filtered.bed \ --out-file ${SAMPLEID}_callable_status_filtered_cds.bed \ --exclude '^HLA' Rscript $PureCN/Dx.R --out $OUT/$SAMPLEID/${SAMPLEID}_cds \ --rds $OUT/SAMPLEID/${SAMPLEID}.rds \ --callable ${SAMPLEID}_callable_status_filtered_cds.bed \ --exclude hg19_simpleRepeats.bed
重要的建议:
运行GATK CallableLoci与——minDepth N
其中N约为所有样本平均目标覆盖率的20%。
如果——可调用的
时,所有经过筛选器的间隔都假定是可调用的。
参数名称 | 对应的PureCN参数 | PureCN函数 |
---|---|---|
——fasta |
reference.file |
preprocessIntervals |
——文件内部 |
interval.file |
preprocessIntervals |
——非目标 |
off.target |
preprocessIntervals |
——average-target-width |
average.target.width |
preprocessIntervals |
——min-target-width |
min.target.width |
preprocessIntervals |
——小目标 |
small.targets |
preprocessIntervals |
——average-off-target-width |
average.off.target.width |
preprocessIntervals |
——off-target-seqlevels |
off.target.seqlevels |
preprocessIntervals |
——mappability |
mappability |
preprocessIntervals |
——min-mappability |
min.mappability |
preprocessIntervals |
——reptiming |
reptiming |
preprocessIntervals |
——average-reptiming-width |
average.reptiming.width |
preprocessIntervals |
——基因组 |
txdb ,org |
annotateTargets |
——out-file |
||
——出口 |
rtracklayer:出口 |
|
——版本- v |
||
-力- f |
||
——帮助- h |
参数名称 | 对应的PureCN参数 | PureCN函数 |
---|---|---|
——砰 |
bam.file |
calculateBamCoverageByInterval |
——白 |
index.file |
calculateBamCoverageByInterval |
——覆盖 |
coverage.file |
correctCoverageBias |
——时间间隔 |
interval.file |
correctCoverageBias |
——方法 |
方法 |
correctCoverageBias |
——keep-duplicates |
keep.duplicates |
calculateBamCoverageByInterval |
——块 |
块 |
calculateBamCoverageByInterval |
——remove-mapq0 |
mapqFilter |
ScanBamParam |
——skip-gc-norm |
correctCoverageBias |
|
——out-dir |
||
——核心 |
提供多个bam时使用的cpu数量 | |
——平行 |
使用默认BiocParallel后端提供多个bam | |
——种子 |
||
——版本- v |
||
-力- f |
||
——帮助- h |
参数名称 | 对应的PureCN参数 | PureCN函数 |
---|---|---|
——覆盖率文件 |
normal.coverage.files |
createNormalDatabase |
——normal-panel |
normal.panel.vcf.file |
calculateMappingBiasVcf |
——分析—— |
可选化验名称 | 用于输出文件名。 |
——基因组- g |
可选基因组版本 | 用于输出文件名。 |
——genomicsdb-af-field |
用于genome icsdb导入,等位基因片段字段 | calculateMappingBiasGatk4 |
——min-normals-position-specific-fit |
min.normals.position.specific.fit |
calculateMappingBiasVcf ,calculateMappingBiasGatk4 |
——out-dir - o |
||
——版本- v |
||
-力- f |
||
——帮助- h |
参数名称 | 对应的PureCN参数 | PureCN函数 |
---|---|---|
——sampleid -我 |
sampleid |
runAbsoluteCN |
——正常 |
normal.coverage.file |
runAbsoluteCN |
——肿瘤 |
tumor.coverage.file |
runAbsoluteCN |
——已 |
vcf.file |
runAbsoluteCN |
——rds |
file.rds |
readCurationFile |
——mapping-bias-file |
mapping.bias.file |
setMappingBiasVcf |
——normaldb |
normalDB (序列化saveRDS ) |
calculateTangentNormal ,filterTargets |
——seg-file |
seg.file |
runAbsoluteCN |
——log-ratio-file |
log.ratio |
runAbsoluteCN |
——additional-tumors |
tumor.coverage.files |
processMultipleSamples |
——性 |
性 |
runAbsoluteCN |
——基因组 |
基因组 |
runAbsoluteCN |
——时间间隔 |
interval.file |
runAbsoluteCN |
——stats文件 |
stats.file |
filterVcfMuTect |
——min-af |
af.range |
filterVcfBasic |
——snp-blacklist |
snp.blacklist |
filterVcfBasic |
——错误 |
错误 |
runAbsoluteCN |
——db-info-flag |
DB.info.flag |
runAbsoluteCN |
——popaf-info-field |
POPAF.info.field |
runAbsoluteCN |
——cosmic-cnt-info-field |
Cosmic.CNT.info.field |
runAbsoluteCN |
——min-cosmic-cnt |
min.cosmic.cnt |
setPriorVcf |
——interval-padding |
interval.padding |
filterVcfBasic |
——min-total-counts |
min.total.counts |
filterIntervals |
——min-fraction-offtarget |
min.fraction.offtarget |
filterIntervals |
——fun-segmentation |
fun.segmentation |
runAbsoluteCN |
——α |
α |
segmentationCBS |
——undo-sd |
撤销。SD |
segmentationCBS |
——changepoints-penalty |
changepoints.penalty |
segmentationGATK4 |
——additional-cmd-args |
additional.cmd.args |
segmentationGATK4 |
——max-segments |
max.segments |
runAbsoluteCN |
——min-logr-sdev |
min.logr.sdev |
runAbsoluteCN |
——min-purity |
test.purity |
runAbsoluteCN |
——max-purity |
test.purity |
runAbsoluteCN |
——min-ploidy |
min.ploidy |
runAbsoluteCN |
——max-ploidy |
max.ploidy |
runAbsoluteCN |
——max-copy-number |
test.num.copy |
runAbsoluteCN |
——post-optimize |
post.optimize |
runAbsoluteCN |
——bootstrap-n |
n |
bootstrapResults |
——speedup-heuristics |
speedup.heuristics |
runAbsoluteCN |
——model-homozygous |
model.homozygous |
runAbsoluteCN |
——模型 |
模型 |
runAbsoluteCN |
——log-ratio-calibration |
log.ratio.calibration |
runAbsoluteCN |
——max-non-clonal |
max.non.clonal |
runAbsoluteCN |
——max-homozygous-loss |
max.homozygous.loss |
runAbsoluteCN |
——out-vcf |
return.vcf |
predictSomatic |
, - o |
||
——平行 |
BPPARAM |
runAbsoluteCN |
——核心 |
BPPARAM |
runAbsoluteCN |
——种子 |
||
——版本- v |
||
-力- f |
||
——帮助- h |
参数名称 | 对应的PureCN参数 | PureCN函数 |
---|---|---|
——rds |
file.rds |
readCurationFile |
——可调用的 |
可调用的 |
callMutationBurden |
——排除 |
排除 |
callMutationBurden |
——max-prior-somatic |
max.prior.somatic |
callMutationBurden |
——签名 |
deconstructSigs: whichSignatures |
|
——signature-databases |
deconstructSigs: whichSignatures |
|
——从 |
||
——版本- v |
||
-力- f |
||
——帮助- h |