1先决条件

1.1以前稳定版本的更新

PureCN向后兼容版本1.16及更高版本生成的输入。对于1.8到1.14版本,请重新运行NormalDB。R(另见下文):

$ Rscript $PURECN/NormalDB。R——out-dir$OUT_REF \ --coverage-files example_normal_coverages.list \ --genome hg19 --normal-panel $NORMAL_PANEL --assay agilent_v6

当使用——模型betabinPureCN。R,我们建议所有以前的版本重新创建映射偏差数据库重新运行NormalDB。R

#只重建映射偏差文件$ Rscript $PURECN/NormalDB。R——out-dir$OUT_REF \ --genome hg19 --normal-panel $NORMAL_PANEL --assay agilent_v6

对于1.6版的升级,我们强烈建议按照本教程从头开始。

1.2安装

对于本教程中描述的命令行脚本,我们需要安装PureCN使用建议的依赖项:

如果(!requireNamespace("BiocManager", quiet = TRUE)) install.packages("BiocManager") BiocManager::install("PureCN", dependencies = TRUE)

或者,手动安装命令行脚本所需的包:

BiocManager::install(c("PureCN", "optparse", "R.utils", " txdb . hspapiens . ucsc .hg19. "knownGene”、“org.Hs.eg.db”))

(替换hg19你的基因组版本)。

使用替代方案,并在许多情况下被推荐PSCBS市场细分:

#默认PSCBS不支持间隔权重BiocManager::install("PSCBS") #补丁PSCBS支持间隔权重BiocManager::install("lima1/PSCBS", ref="add_dnacopy_weighting")

调用突变签名,安装GitHub版本的deconstructSigs包:

BiocManager:安装(“raerose01 / deconstructSigs”)

对于导入变量调用的实验支持GATK4 GenomicsDB,按照安装说明安装GenomicsDB-R

GATK4分割需要gatk二进制路径。支持4.1.7.0及更新版本。

2准备环境和分析特定的参考文件

  • 启动R并输入以下命令获取命令行脚本的路径:
系统。file("extdata", package = "PureCN")
## [1] "/tmp/Rtmpb6k6Sg/Rinst319bfa6d393f61/PureCN/extdata"
  • 退出R并将此路径存储在一个环境变量中,例如在BASH中:
$ Rscript $PURECN/ PURECN . extdata ="/path/to/ PURECN/ extdata"R——help使用方法:“/path/to/PureCN/inst/extdata/PureCN. R”。R[选项]…
  • 从包含诱饵坐标的BED文件生成一个间隔文件(第三方分割不一定需要,请参阅相应的小节)5):
#指定PureCN存放引用文件的路径$ export OUT_REF="reference_files" $ Rscript $ PureCN /IntervalFileR——in-file baits_hg19。床——fasta hg19。fa——out-file $OUT_REF/ baits_hg19_logs .txt \——off-target——genome hg19 \——export $OUT_REF/baits_optimized_hg19. txt——mappability wgEncodeCrgMapabilityAlign100mer。bigWig \——reptiming wgEncodeUwRepliSeqK562WaveSignalRep1.bigWig

在内部,该脚本使用rtracklayer要解析——文件内部.请确保文件格式与文件扩展名匹配。看到rtracklayer关于加载文件问题的文档。检查鱼饵文件的基因组版本是否与参考文献相匹配。不要包括chrM诱饵,以防捕获套件包括一些。

我们不建议手动填充诱饵文件,除非覆盖率非常低(<30X),其中填充区域增加的计数可能会略微降低抽样方差。请注意,我们强烈建议使用至少50bp的填充来运行变体调用器,以增加信息性snp的数量,参见下面的VCF部分。仔细检查基因组版本——文件内部是正确的-许多分析仍然使用旧的引用设计,可能需要提升到管道引用。如果可能的话,不要使用包含目标外显子的BED文件,而是使用诱饵的坐标。这些优化了gc含量和可映射性,并将产生更清洁的覆盖配置文件。

——非目标标志将包括脱靶读取。除了Amplicon数据外,建议包含它们。对于全外显子组数据,获益通常也有限,除非检测效率低,脱靶读取率高(>10-15%)。

——基因组用基因符号注释外显子需要版本。人类基因组使用hg19/hg38,而不是b37/b38。您可能会收到缺少注释包的警告。对于hg19,安装TxDb.Hsapiens.UCSC.hg19.knownGene在R。

——出口参数是可选的。如果提供了,这个脚本将把修改后的间隔存储为BED文件rtracklayer支持格式)。当使用第三方工具(如GATK)计算覆盖率时,这很有用。

——mappability参数应提供rtracklayer在第一个元数据列中具有可映射性得分的可解析文件。如果提供,脱靶区域将被限制在此文件中指定的区域。映射能力低的目标区域将被排除。对于hg19,请从UCSC网站下载。选择最适合平均映射读长度的kmer大小。对于hg38,请通过Waldron实验室下载推荐的76 kmer或100 kmer映射文件:

有关如何生成这样一个文件以供其他参考的说明,请参阅主要插图的FAQ部分。

类似地,——reptiming参数接受相同格式的复制计时分数。如果提供,则测试gc标准化和日志转换覆盖率与此分数的线性关系,并相应地进行标准化。这是可选的,只提供了一个小的好处覆盖正常化,但可以识别高增殖样本。需要——非目标成为有用的人。

3.创建VCF文件

PureCN没有与变体调用程序一起发布。使用第三方工具为每个示例生成一个VCF。

重要的建议:

  • 使用MuTect 1.1.7如果可能的话;Mutect 2GATK 4.1.7 +现在是alpha和vcf生成的最佳实践躯体工作流应该工作(早些时候Mutect 2版本不受支持,将无法工作)。

  • 其他肿瘤患者的vcf,比如VarScan2而且FreeBayes支持,但是只对这些调用者执行非常有限的工件筛选。确保提供经过过滤的vcf。有关与输入数据相关的常见问题和问题,请参阅主插图中的常见问题一节。

  • 由于需要种系SNPs来推断等位基因特异性拷贝数,所提供的VCF需要同时包含体细胞和种系变体。确保上游过滤不会去除高质量的snp,特别是由于存在于生殖系数据库中。Mutect 1.1.7自动调用snp,但是Mutect 2没有。确保运行Mutect 2——基因型-生殖系-位点为真——基因型-桥-位点为真.如果没有这些标志,您将无法获得可用的输出。

  • 运行具有50-75碱基对间隔填充的变体调用器,以增加杂合snp的数量(例如——interval_padding而且——interval-paddingMutect 1.1.7而且Mutect 2分别)。对于超过1000X的非常高的覆盖率,将这个值增加到200bp是安全的。

4使用内部分割运行PureCN

以下描述PureCN运行内部拷贝数归一化和分割。

你需要:

  • 上面生成的间隔文件

  • 肿瘤样本的BAM文件。

  • 正常示例的BAM文件(请参阅主要小插图以获得建议)。这些正常样本不需要与肿瘤样本进行患者匹配,但需要进行处理匹配(通过相同的比对管道进行相同的检测,理想情况下在同一实验室进行测序)。

  • 上面生成的所有肿瘤和正常BAM文件的VCF文件

4.1报道

对于每个样本,肿瘤和正常,计算gc归一化覆盖率:

#从BAM文件$ Rscript $PURECN/ coverage中计算和GC-normalize覆盖率。R——OUT -dir $OUT/$SAMPLEID \——bam ${SAMPLEID}。bam \——interval $OUT_REF/baits_hg19_interval .txt

与GATK类似,此脚本还接受一个包含BAM或覆盖文件名列表的文本文件(每行一个)。文件扩展名必须为.list

#从BAM文件$ Rscript $PURECN/ coverage列表中计算和GC-normalize覆盖率。R——OUT -dir $OUT/normals \——bam normals。list \——interval $OUT_REF/baits_hg19_interval .txt \——cores

重要的建议:

  • 只提供——keep-duplicatesorgydF4y2Ba——remove-mapq0如果你知道你在做什么,并且总是使用相同的命令行参数肿瘤和正常

  • 不做气相色谱常规检查是安全的——skip-gc-norm当肿瘤和正常样本预期表现出相似的偏差,并且有足够数量的正常样本可用时。等离子体测序就是一个很好的例子。相比之下,与血液对照相比,旧的FFPE样本更有可能受益于gc正常化。

  • gc正常化的潜在负面影响更有可能出现在非常小的目标面板(< 0.5Mb)中,值得进行基准测试。

  • 当使用受支持的第三方工具来计算覆盖率时(目前CNVkitGATK3而且GATK4),可以用匹配的间隔文件GC-normalize这些覆盖:

# GC-normalize覆盖从GATK DepthOfCoverage文件Rscript $PURECN/ coverage。R——OUT -dir $OUT/$SAMPLEID \——coverage ${SAMPLEID}.coverage。sample_interval_summary \——interval $OUT_REF/baits_hg19_interval .txt

4.2NormalDB

为了建立一个常规的覆盖标准化数据库,在一个文本文件中逐行复制所有(gc标准化)常规覆盖文件的路径:

ls -a $OUT/ normal_coverages /*_loess.txt.gz | cat > example_normal_coverages. gz如果没有GC-normalization执行:# ls -a $OUT/normals/*_coverage.txt.gz | cat > example_normal_coverages. gzlist $ Rscript $PURECN/NormalDB。R——out-dir$OUT_REF \ --coverage-files example_normal_coverages.list \ --genome hg19 --assay agilent_v6 # When normal panel VCF is available (highly recommended for # unmatched samples) $ Rscript $PURECN/NormalDB.R --out-dir $OUT_REF \ --coverage-files example_normal_coverages.list \ --normal-panel $NORMAL_PANEL \ --genome hg19 \ --assay agilent_v6 # For a Mutect2/GATK4 normal panel GenomicsDB (beta) $ Rscript $PURECN/NormalDB.R --out-dir $OUT_REF \ --coverage-files example_normal_coverages.list \ --normal-panel $GENOMICSDB-WORKSPACE-PATH/pon_db \ --genome hg19 \ --assay agilent_v6

重要的建议:

  • 当差异显著时,考虑生成不同的数据库,例如对于具有不同读取长度或插入大小分布的样本

  • 特别要注意的是,不要将不同的捕获套件(例如:安捷伦sureelect v4而且v6

  • 在这里提供一个正常的面板VCF来预计算映射偏差,以获得更快的运行时间。VCF的唯一要求是广告格式字段,包含所有样本的引用数和Alt读数。参见示例文件$ PURECN / normalpanel.vcf.gz

  • 为了获得理想的结果,请检查interval_weights.png文件找到良好的脱靶仓宽度。您需要重新运行IntervalFile。R——average-off-target-width参数化并重新计算覆盖率。NormalDB。R也将给出一个好的最小宽度的建议。我们不建议低于这个估计值;设置——average-off-target-width值大于此值可以以降低分辨率为代价降低噪声。将其设置为最小推荐值的1.2-1.5倍(理想情况下应该小于250kb)是一个很好的起点。

  • ——分析参数是可选的,仅用于将提供的化验名称添加到所有输出文件

  • 警告指出可能使用了错误的诱饵文件,这意味着超过5%的目标在所有正常样本中覆盖率接近于0。将在中生成具有低覆盖率目标的BED文件——out-dir.如果由于任何原因无法访问正确的文件,建议重新运行IntervalFile。R命令并为该BED文件提供——排除

4.3PureCN

现在已经创建了特定于分析的文件,并且计算了所有的覆盖范围,我们开始运行PureCN归一化,分割并确定纯度和倍性:

mkdir $OUT/$SAMPLEID #没有匹配的正常(最小测试运行)$ Rscript $PURECN/ PURECN。R——从$OUT/$SAMPLEID \ --tumor $OUT/$SAMPLEID/${SAMPLEID}_coverage_loess.txt.gz \ --sampleid $SAMPLEID \ --vcf ${SAMPLEID}_mutect.vcf \ --normaldb $OUT_REF/normalDB_hg19.rds \ --intervals $OUT_REF/baits_hg19_intervals.txt \ --genome hg19 # Production pipeline run $ Rscript $PURECN/PureCN.R --out $OUT/$SAMPLEID \ --tumor $OUT/$SAMPLEID/${SAMPLEID}_coverage_loess.txt.gz \ --sampleid $SAMPLEID \ --vcf ${SAMPLEID}_mutect.vcf \ --stats-file ${SAMPLEID}_mutect_stats.txt \ --fun-segmentation PSCBS \ --normaldb $OUT_REF/normalDB_hg19.rds \ --mapping-bias-file $OUT_REF/mapping_bias_hg19.rds \ --intervals $OUT_REF/baits_hg19_intervals.txt \ --snp-blacklist hg19_simpleRepeats.bed \ --genome hg19 \ --model betabin \ --force --post-optimize --seed 123 # With a matched normal (test run; for production pipelines we recommend the # unmatched workflow described above) $ Rscript $PURECN/PureCN.R --out $OUT/$SAMPLEID \ --tumor $OUT/$SAMPLEID/${SAMPLEID}_coverage_loess.txt.gz \ --normal $OUT/$SAMPLEID/${SAMPLEID_NORMAL}_coverage_loess.txt.gz \ --sampleid $SAMPLEID \ --vcf ${SAMPLEID}_mutect.vcf \ --normaldb $OUT_REF/normalDB_hg19.rds \ --intervals $OUT_REF/baits_hg19_intervals.txt \ --genome hg19 # Recreate output after manual curation of ${SAMPLEID}.csv $ Rscript $PURECN/PureCN.R --rds $OUT/$SAMPLEID/${SAMPLEID}.rds

重要的建议:

  • 即使匹配的法线可用,使用普通数据库进行覆盖规范化通常也更好。当提供匹配的正常覆盖时——正常然后正常覆盖池归一化和去噪步骤被跳过!

  • 始终提供正常覆盖率数据库,以忽略分割中的低质量区域,并增加对高纯度样品中纯合子缺失的敏感性。

  • 再次检查——肿瘤而且——normaldb时,gc归一化或用于(* _loess.txt.gz)或两者都跳过(* _coverage.txt.gz).

  • 法线面板VCF文件对于映射偏差校正非常有用,特别推荐没有匹配法线的情况。请参阅如何生成此文件的主要小插图的常见问题。它对于测试运行不是必需的。

  • MuTect 1.1.7stats文件(VCF之外的主要输出文件)应该提供更好的工件过滤。如果VCF是由执行良好的工件过滤的管道生成的,则不需要此文件。不提供此文件为Mutect 2

  • ——post-optimizeFlag定义纯度应同时使用变异等位基因分数和拷贝数来优化,而不是仅使用拷贝数。这导致整个外显子组数据的运行时间显著增加。

  • 如果——从是一个目录,它将使用示例id作为所有输出文件的文件前缀。否则PureCN将使用——从作为前缀。

  • ——平行标志将启用局部最优的并行拟合。看到BiocParallel获取详细信息。该脚本将使用默认后端。——核心是使用指定数量的cpu而不是默认后端的捷径。只指定两个参数中的一个。请注意,内存使用会随着内核数量的增加而线性增加,内存不足会导致随机崩溃。

  • ——fun-segmentation PSCBS是1.22中的新建议。对间隔权重的支持目前需要一个补丁(参见第1节)1.2).关于该方法的最佳选择,请参阅下面的详细信息。

  • ——模型betabin是1.22中的新建议,具有更大的正常样本(超过10-15个正常样本)。

  • 默认值被很好地校准,对于大多数样本应该产生接近理想的结果。更改默认值是有意义的一些常见情况:

    • 高纯度和高质量:对于期望纯度较高的癌症类型,如卵巢癌,并且当期望质量非常好时(高覆盖率,年轻样本),——max-copy-number 8.(PureCN报告大于此值的拷贝数,但将停止将SNP等位基因分数拟合到精确的等位基因特定的拷贝数,因为这将在高拷贝数下很快变得不可能-并且计算成本很高。)

    • 小面板,高覆盖率:——interval-padding 100(或更高),需要运行带有此填充或没有间隔文件的变量调用者。对法线VCF面板使用相同的设置,以便侧翼区域的snp有可靠的映射偏差估计。的——max-homozygous-loss参数可能还需要一些调整非常小的面板,周围捕获的删除有很大的差距。

    • 细胞系:安全地跳过在细胞系中寻找低纯度溶液:——max-copy-number 8——min-purity 0.9——max-purity 0.99.添加——model-homozygous在没有正常污染的样品中找到LOH区域(当VCF中有匹配的正常数据时,不提供此标志)。

    • cfDNA:——min-purity 0.1——min-af 0.01(或更低)和——错误0.0005(或者更低,当有基于ui的错误修正时)。请注意,当真实纯度低于5-7%时,估计纯度可能非常错误;这些样本通常被标记为非异常。

    • 所有化验:——max-segments应设置为一个值,以便除少数例外情况外,只有质量较差的样品超过此截止值。对于异质性高的癌型,也建议增加——max-non-clonal到0.3-0.4(这将显著增加全外显子组数据的运行时间)。

    • 分割函数的选择也会产生显著的差异,不幸的是,目前还没有一种通用的方法在所有情况下都是最好的。

      • PSCBS:一个很好的和安全的起点,特别是在偏离目标的区域,与目标区域相比,可能会表现出不同的噪声分布。

      • GATK4:最新添加。还没有经过很好的测试PureCN,但从理论上来说,每个间隔的snp数量更大是最好的选择,例如带有拷贝数主干的分析。我们感谢反馈。

      • CBS:简单,快速,经过良好测试。不完全支持SNP信息,因此仅建议用于SNP /间隔比非常小的设置,例如具有健康脱靶覆盖的小型目标面板(<1Mb)(分辨率<150kb,与目标相比具有类似的日志比噪声)。

      • copynumber:用于有多个时间点或活检的病例。这是
        自动选择——additional-tumors目前不支持单样本分析。

      • Hclust/none:用于第三方分割。Hclust为了校准染色体之间的对数比,没有一个很大程度上保持了所提供的一切。

  • 对于检查是否PureCN设置是正确的:

    • 对于高质量数据,日志文件中报告的“log-ratio的平均标准偏差”应该相当低。旧的FFPE数据可以在0.4左右,但高覆盖率,相对较新的样本应该接近0.15的最小值。如果off-target的噪声始终比on-target大,可能值得增加off-target bin的大小并从头开始(或者在全外显子组测序的情况下,忽略off-target读取,因为当bin很大和/或有噪声时,它们不能提供太多额外的信息)。

    • 与此相关,当所有通过过滤器的间隔中不到10%是脱靶间隔时抛出警告。全外显子组测序通常在这个值附近。如果对数比标准差与目标区域相似,甚至低于目标区域,则值得保留偏离目标区域。否则,偏离目标可能会增加更多的噪音而不是信号。当所有区间的及格率低于5%时,将自动忽略脱靶信息。

    • 具有SNPs的靶标比例应在10% ~ 15%之间。如果它明显较低,请确保变量调用者使用50-100bp间隔填充或根本没有间隔文件。还要检查间隔文件是使用诱饵坐标生成的,而不是目标(诱饵BED文件应该有更均匀的大小分布,例如120bp和它的倍数)。

    • 日志文件中的“重大样品交叉污染的初始测试”不应该有很多假阳性,即对于大多数样品应该是“不太可能”,而不是“可能”。不充分的伪影去除会导致太多具有低等位基因分数的错误snp调用,混淆了污染调用者。

    • 阅读所有警告。

5使用第三方分割运行PureCN

我们的内部PureCN标准化结合PSCBSorgydF4y2BaGATK4细分应该产生极具竞争力的结果,我们鼓励用户尝试并将其与现有渠道进行比较。然而,我们意识到在生产管道中更换工具通常不是一个选择,因此我们使其相对易于使用PureCN使用第三方工具。我们为CNVkit而且GATK4它应该是简单的适应其他工具。

你需要:

  • 第三方工具输出(详见下文)

  • 所有肿瘤样本的VCF文件和一些正常文件(有关所需正常样本的问题见主插图)

5.1一般使用

如果你已经从第三方工具(例如CNVkitGATK4EXCAVATOR2).对于最小的测试运行:

Rscript PURECN / PURECN美元。R——从$OUT/$SAMPLEID \ --sampleid $SAMPLEID \ --seg-file $OUT/$SAMPLEID/${SAMPLEID}.cnvkit.seg \ --vcf ${SAMPLEID}_mutect.vcf \ --intervals $OUT_REF/baits_hg19_intervals.txt \ --genome hg19

有关更多细节和文件格式,请参阅主要插图。

6生物标记物

Dx。R提供通常用作生物标志物的拷贝数和突变指标,最重要的是肿瘤突变负担(TMB),染色体不稳定性(CIN)和突变特征。

提供一个包含可调用区域的BED文件,例如通过# GATK CallableLoci获得的文件。用于计算每兆酶突变数和#以排除低质量区域。grep CALLABLE ${SAMPLEID}_callable_status。bed > \ ${SAMPLEID}_callable_status_filtered。bed #只计算可调用区域的突变,也减去在PureCN中被忽略的突变。Rvia --snp-blacklist, like simple repeats, from the # mutation per megabase calculation # Also search for the COSMIC mutation signatures # (http://cancer.sanger.ac.uk/cosmic/signatures) Rscript $PureCN/Dx.R --out $OUT/$SAMPLEID/$SAMPLEID \ --rds $OUT/SAMPLEID/${SAMPLEID}.rds \ --callable ${SAMPLEID}_callable_status_filtered.bed \ --exclude hg19_simpleRepeats.bed \ --signatures # Restrict mutation burden calculation to coding sequences Rscript $PureCN/FilterCallableLoci.R --genome hg19 \ --in-file ${SAMPLEID}_callable_status_filtered.bed \ --out-file ${SAMPLEID}_callable_status_filtered_cds.bed \ --exclude '^HLA' Rscript $PureCN/Dx.R --out $OUT/$SAMPLEID/${SAMPLEID}_cds \ --rds $OUT/SAMPLEID/${SAMPLEID}.rds \ --callable ${SAMPLEID}_callable_status_filtered_cds.bed \ --exclude hg19_simpleRepeats.bed

重要的建议:

  • 运行GATK CallableLoci——minDepth N其中N约为所有样本平均目标覆盖率的20%。

  • 如果——可调用的时,所有经过筛选器的间隔都假定是可调用的。

7参考


表1: IntervalFile
参数名称 对应的PureCN参数 PureCN函数
——fasta reference.file preprocessIntervals
——文件内部 interval.file preprocessIntervals
——非目标 off.target preprocessIntervals
——average-target-width average.target.width preprocessIntervals
——min-target-width min.target.width preprocessIntervals
——小目标 small.targets preprocessIntervals
——average-off-target-width average.off.target.width preprocessIntervals
——off-target-seqlevels off.target.seqlevels preprocessIntervals
——mappability mappability preprocessIntervals
——min-mappability min.mappability preprocessIntervals
——reptiming reptiming preprocessIntervals
——average-reptiming-width average.reptiming.width preprocessIntervals
——基因组 txdborg annotateTargets
——out-file
——出口 rtracklayer:出口
——版本- v
-力- f
——帮助- h

表2: 报道
参数名称 对应的PureCN参数 PureCN函数
——砰 bam.file calculateBamCoverageByInterval
——白 index.file calculateBamCoverageByInterval
——覆盖 coverage.file correctCoverageBias
——时间间隔 interval.file correctCoverageBias
——方法 方法 correctCoverageBias
——keep-duplicates keep.duplicates calculateBamCoverageByInterval
——块 calculateBamCoverageByInterval
——remove-mapq0 mapqFilter ScanBamParam
——skip-gc-norm correctCoverageBias
——out-dir
——核心 提供多个bam时使用的cpu数量
——平行 使用默认BiocParallel后端提供多个bam
——种子
——版本- v
-力- f
——帮助- h

表3: NormalDB
参数名称 对应的PureCN参数 PureCN函数
——覆盖率文件 normal.coverage.files createNormalDatabase
——normal-panel normal.panel.vcf.file calculateMappingBiasVcf
——分析—— 可选化验名称 用于输出文件名。
——基因组- g 可选基因组版本 用于输出文件名。
——genomicsdb-af-field 用于genome icsdb导入,等位基因片段字段 calculateMappingBiasGatk4
——min-normals-position-specific-fit min.normals.position.specific.fit calculateMappingBiasVcfcalculateMappingBiasGatk4
——out-dir - o
——版本- v
-力- f
——帮助- h

表4: PureCN
参数名称 对应的PureCN参数 PureCN函数
——sampleid -我 sampleid runAbsoluteCN
——正常 normal.coverage.file runAbsoluteCN
——肿瘤 tumor.coverage.file runAbsoluteCN
——已 vcf.file runAbsoluteCN
——rds file.rds readCurationFile
——mapping-bias-file mapping.bias.file setMappingBiasVcf
——normaldb normalDB(序列化saveRDS calculateTangentNormalfilterTargets
——seg-file seg.file runAbsoluteCN
——log-ratio-file log.ratio runAbsoluteCN
——additional-tumors tumor.coverage.files processMultipleSamples
——性 runAbsoluteCN
——基因组 基因组 runAbsoluteCN
——时间间隔 interval.file runAbsoluteCN
——stats文件 stats.file filterVcfMuTect
——min-af af.range filterVcfBasic
——snp-blacklist snp.blacklist filterVcfBasic
——错误 错误 runAbsoluteCN
——db-info-flag DB.info.flag runAbsoluteCN
——popaf-info-field POPAF.info.field runAbsoluteCN
——cosmic-cnt-info-field Cosmic.CNT.info.field runAbsoluteCN
——min-cosmic-cnt min.cosmic.cnt setPriorVcf
——interval-padding interval.padding filterVcfBasic
——min-total-counts min.total.counts filterIntervals
——min-fraction-offtarget min.fraction.offtarget filterIntervals
——fun-segmentation fun.segmentation runAbsoluteCN
——α α segmentationCBS
——undo-sd 撤销。SD segmentationCBS
——changepoints-penalty changepoints.penalty segmentationGATK4
——additional-cmd-args additional.cmd.args segmentationGATK4
——max-segments max.segments runAbsoluteCN
——min-logr-sdev min.logr.sdev runAbsoluteCN
——min-purity test.purity runAbsoluteCN
——max-purity test.purity runAbsoluteCN
——min-ploidy min.ploidy runAbsoluteCN
——max-ploidy max.ploidy runAbsoluteCN
——max-copy-number test.num.copy runAbsoluteCN
——post-optimize post.optimize runAbsoluteCN
——bootstrap-n n bootstrapResults
——speedup-heuristics speedup.heuristics runAbsoluteCN
——model-homozygous model.homozygous runAbsoluteCN
——模型 模型 runAbsoluteCN
——log-ratio-calibration log.ratio.calibration runAbsoluteCN
——max-non-clonal max.non.clonal runAbsoluteCN
——max-homozygous-loss max.homozygous.loss runAbsoluteCN
——out-vcf return.vcf predictSomatic
, - o
——平行 BPPARAM runAbsoluteCN
——核心 BPPARAM runAbsoluteCN
——种子
——版本- v
-力- f
——帮助- h

表5: Dx
参数名称 对应的PureCN参数 PureCN函数
——rds file.rds readCurationFile
——可调用的 可调用的 callMutationBurden
——排除 排除 callMutationBurden
——max-prior-somatic max.prior.somatic callMutationBurden
——签名 deconstructSigs: whichSignatures
——signature-databases deconstructSigs: whichSignatures
——从
——版本- v
-力- f
——帮助- h