1先决条件

1．1以前稳定版本的更新

PureCN向后兼容版本1.16及更高版本生成的输入。对于1.8到1.14版本，请重新运行NormalDB。R(另见下文):

$ Rscript $PURECN/NormalDB。R——out-dir$OUT_REF \ --coverage-files example_normal_coverages.list \ --genome hg19 --normal-panel $NORMAL_PANEL --assay agilent_v6

当使用——模型betabin在PureCN。R，我们建议所有以前的版本重新创建映射偏差数据库重新运行NormalDB。R：

#只重建映射偏差文件$ Rscript $PURECN/NormalDB。R——out-dir$OUT_REF \ --genome hg19 --normal-panel $NORMAL_PANEL --assay agilent_v6

对于1.6版的升级，我们强烈建议按照本教程从头开始。

1．2安装

对于本教程中描述的命令行脚本，我们需要安装PureCN使用建议的依赖项:

如果(!requireNamespace("BiocManager"， quiet = TRUE)) install.packages("BiocManager") BiocManager::install("PureCN"， dependencies = TRUE)

或者，手动安装命令行脚本所需的包:

BiocManager::install(c("PureCN"， "optparse"， "R.utils"， " txdb . hspapiens . ucsc .hg19. "knownGene”、“org.Hs.eg.db”))

(替换hg19你的基因组版本)。

使用替代方案，并在许多情况下被推荐PSCBS市场细分:

#默认PSCBS不支持间隔权重BiocManager::install("PSCBS") #补丁PSCBS支持间隔权重BiocManager::install("lima1/PSCBS"， ref="add_dnacopy_weighting")

调用突变签名，安装GitHub版本的deconstructSigs包:

BiocManager:安装(“raerose01 / deconstructSigs”)

对于导入变量调用的实验支持GATK4 GenomicsDB，按照安装说明安装GenomicsDB-R．

的GATK4分割需要gatk二进制路径。支持4.1.7.0及更新版本。

2准备环境和分析特定的参考文件

启动R并输入以下命令获取命令行脚本的路径:

系统。file("extdata"， package = "PureCN")

## [1] "/tmp/Rtmpb6k6Sg/Rinst319bfa6d393f61/PureCN/extdata"

退出R并将此路径存储在一个环境变量中，例如在BASH中:

$ Rscript $PURECN/ PURECN . extdata ="/path/to/ PURECN/ extdata"R——help使用方法:“/path/to/PureCN/inst/extdata/PureCN. R”。R[选项]…

从包含诱饵坐标的BED文件生成一个间隔文件(第三方分割不一定需要，请参阅相应的小节)5)：

#指定PureCN存放引用文件的路径$ export OUT_REF="reference_files" $ Rscript $ PureCN /IntervalFileR——in-file baits_hg19。床——fasta hg19。fa——out-file $OUT_REF/ baits_hg19_logs .txt \——off-target——genome hg19 \——export $OUT_REF/baits_optimized_hg19. txt——mappability wgEncodeCrgMapabilityAlign100mer。bigWig \——reptiming wgEncodeUwRepliSeqK562WaveSignalRep1.bigWig

在内部，该脚本使用rtracklayer要解析——文件内部．请确保文件格式与文件扩展名匹配。看到rtracklayer关于加载文件问题的文档。检查鱼饵文件的基因组版本是否与参考文献相匹配。不要包括chrM诱饵，以防捕获套件包括一些。

我们不建议手动填充诱饵文件，除非覆盖率非常低(<30X)，其中填充区域增加的计数可能会略微降低抽样方差。请注意，我们强烈建议使用至少50bp的填充来运行变体调用器，以增加信息性snp的数量，参见下面的VCF部分。仔细检查基因组版本——文件内部是正确的-许多分析仍然使用旧的引用设计，可能需要提升到管道引用。如果可能的话，不要使用包含目标外显子的BED文件，而是使用诱饵的坐标。这些优化了gc含量和可映射性，并将产生更清洁的覆盖配置文件。

的——非目标标志将包括脱靶读取。除了Amplicon数据外，建议包含它们。对于全外显子组数据，获益通常也有限，除非检测效率低，脱靶读取率高(>10-15%)。

的——基因组用基因符号注释外显子需要版本。人类基因组使用hg19/hg38，而不是b37/b38。您可能会收到缺少注释包的警告。对于hg19，安装TxDb.Hsapiens.UCSC.hg19.knownGene在R。

的——出口参数是可选的。如果提供了，这个脚本将把修改后的间隔存储为BED文件rtracklayer支持格式)。当使用第三方工具(如GATK)计算覆盖率时，这很有用。

的——mappability参数应提供rtracklayer在第一个元数据列中具有可映射性得分的可解析文件。如果提供，脱靶区域将被限制在此文件中指定的区域。映射能力低的目标区域将被排除。对于hg19，请从UCSC网站下载。选择最适合平均映射读长度的kmer大小。对于hg38，请通过Waldron实验室下载推荐的76 kmer或100 kmer映射文件:

有关如何生成这样一个文件以供其他参考的说明，请参阅主要插图的FAQ部分。

类似地,——reptiming参数接受相同格式的复制计时分数。如果提供，则测试gc标准化和日志转换覆盖率与此分数的线性关系，并相应地进行标准化。这是可选的，只提供了一个小的好处覆盖正常化，但可以识别高增殖样本。需要——非目标成为有用的人。

3.创建VCF文件

PureCN没有与变体调用程序一起发布。使用第三方工具为每个示例生成一个VCF。

重要的建议:

使用MuTect 1.1.7如果可能的话;Mutect 2从GATK 4.1.7 +现在是alpha和vcf生成的最佳实践躯体工作流应该工作(早些时候Mutect 2版本不受支持，将无法工作)。
其他肿瘤患者的vcf，比如VarScan2而且FreeBayes支持，但是只对这些调用者执行非常有限的工件筛选。确保提供经过过滤的vcf。有关与输入数据相关的常见问题和问题，请参阅主插图中的常见问题一节。
由于需要种系SNPs来推断等位基因特异性拷贝数，所提供的VCF需要同时包含体细胞和种系变体。确保上游过滤不会去除高质量的snp，特别是由于存在于生殖系数据库中。Mutect 1.1.7自动调用snp，但是Mutect 2没有。确保运行Mutect 2与——基因型-生殖系-位点为真——基因型-桥-位点为真．如果没有这些标志，您将无法获得可用的输出。
运行具有50-75碱基对间隔填充的变体调用器，以增加杂合snp的数量(例如——interval_padding而且——interval-padding在Mutect 1.1.7而且Mutect 2分别)。对于超过1000X的非常高的覆盖率，将这个值增加到200bp是安全的。

4使用内部分割运行PureCN

以下描述PureCN运行内部拷贝数归一化和分割。

你需要:

上面生成的间隔文件
肿瘤样本的BAM文件。
正常示例的BAM文件(请参阅主要小插图以获得建议)。这些正常样本不需要与肿瘤样本进行患者匹配，但需要进行处理匹配(通过相同的比对管道进行相同的检测，理想情况下在同一实验室进行测序)。
上面生成的所有肿瘤和正常BAM文件的VCF文件

4．1报道

对于每个样本，肿瘤和正常，计算gc归一化覆盖率:

#从BAM文件$ Rscript $PURECN/ coverage中计算和GC-normalize覆盖率。R——OUT -dir $OUT/$SAMPLEID \——bam ${SAMPLEID}。bam \——interval $OUT_REF/baits_hg19_interval .txt

与GATK类似，此脚本还接受一个包含BAM或覆盖文件名列表的文本文件(每行一个)。文件扩展名必须为.list：

#从BAM文件$ Rscript $PURECN/ coverage列表中计算和GC-normalize覆盖率。R——OUT -dir $OUT/normals \——bam normals。list \——interval $OUT_REF/baits_hg19_interval .txt \——cores

重要的建议:

只提供——keep-duplicatesorgydF4y2Ba——remove-mapq0如果你知道你在做什么，并且总是使用相同的命令行参数肿瘤和正常
不做气相色谱常规检查是安全的——skip-gc-norm当肿瘤和正常样本预期表现出相似的偏差，并且有足够数量的正常样本可用时。等离子体测序就是一个很好的例子。相比之下，与血液对照相比，旧的FFPE样本更有可能受益于gc正常化。
gc正常化的潜在负面影响更有可能出现在非常小的目标面板(< 0.5Mb)中，值得进行基准测试。
当使用受支持的第三方工具来计算覆盖率时(目前CNVkit，GATK3而且GATK4)，可以用匹配的间隔文件GC-normalize这些覆盖:

# GC-normalize覆盖从GATK DepthOfCoverage文件Rscript $PURECN/ coverage。R——OUT -dir $OUT/$SAMPLEID \——coverage ${SAMPLEID}.coverage。sample_interval_summary \——interval $OUT_REF/baits_hg19_interval .txt

4.2NormalDB

为了建立一个常规的覆盖标准化数据库，在一个文本文件中逐行复制所有(gc标准化)常规覆盖文件的路径:

ls -a $OUT/ normal_coverages /*_loess.txt.gz | cat > example_normal_coverages. gz如果没有GC-normalization执行:# ls -a $OUT/normals/*_coverage.txt.gz | cat > example_normal_coverages. gzlist $ Rscript $PURECN/NormalDB。R——out-dir$OUT_REF \ --coverage-files example_normal_coverages.list \ --genome hg19 --assay agilent_v6 # When normal panel VCF is available (highly recommended for # unmatched samples) $ Rscript $PURECN/NormalDB.R --out-dir $OUT_REF \ --coverage-files example_normal_coverages.list \ --normal-panel $NORMAL_PANEL \ --genome hg19 \ --assay agilent_v6 # For a Mutect2/GATK4 normal panel GenomicsDB (beta) $ Rscript $PURECN/NormalDB.R --out-dir $OUT_REF \ --coverage-files example_normal_coverages.list \ --normal-panel $GENOMICSDB-WORKSPACE-PATH/pon_db \ --genome hg19 \ --assay agilent_v6

重要的建议:

当差异显著时，考虑生成不同的数据库，例如对于具有不同读取长度或插入大小分布的样本
特别要注意的是，不要将不同的捕获套件(例如:安捷伦sureelect v4而且v6）
在这里提供一个正常的面板VCF来预计算映射偏差，以获得更快的运行时间。VCF的唯一要求是广告格式字段，包含所有样本的引用数和Alt读数。参见示例文件$ PURECN / normalpanel.vcf.gz．
为了获得理想的结果，请检查interval_weights.png文件找到良好的脱靶仓宽度。您需要重新运行IntervalFile。R与——average-off-target-width参数化并重新计算覆盖率。NormalDB。R也将给出一个好的最小宽度的建议。我们不建议低于这个估计值;设置——average-off-target-width值大于此值可以以降低分辨率为代价降低噪声。将其设置为最小推荐值的1.2-1.5倍(理想情况下应该小于250kb)是一个很好的起点。
的——分析参数是可选的，仅用于将提供的化验名称添加到所有输出文件
警告指出可能使用了错误的诱饵文件，这意味着超过5%的目标在所有正常样本中覆盖率接近于0。将在中生成具有低覆盖率目标的BED文件——out-dir．如果由于任何原因无法访问正确的文件，建议重新运行IntervalFile。R命令并为该BED文件提供——排除．

4.３PureCN

现在已经创建了特定于分析的文件，并且计算了所有的覆盖范围，我们开始运行PureCN归一化，分割并确定纯度和倍性:

mkdir $OUT/$SAMPLEID #没有匹配的正常(最小测试运行)$ Rscript $PURECN/ PURECN。R——从$OUT/$SAMPLEID \ --tumor $OUT/$SAMPLEID/${SAMPLEID}_coverage_loess.txt.gz \ --sampleid $SAMPLEID \ --vcf ${SAMPLEID}_mutect.vcf \ --normaldb $OUT_REF/normalDB_hg19.rds \ --intervals $OUT_REF/baits_hg19_intervals.txt \ --genome hg19 # Production pipeline run $ Rscript $PURECN/PureCN.R --out $OUT/$SAMPLEID \ --tumor $OUT/$SAMPLEID/${SAMPLEID}_coverage_loess.txt.gz \ --sampleid $SAMPLEID \ --vcf ${SAMPLEID}_mutect.vcf \ --stats-file ${SAMPLEID}_mutect_stats.txt \ --fun-segmentation PSCBS \ --normaldb $OUT_REF/normalDB_hg19.rds \ --mapping-bias-file $OUT_REF/mapping_bias_hg19.rds \ --intervals $OUT_REF/baits_hg19_intervals.txt \ --snp-blacklist hg19_simpleRepeats.bed \ --genome hg19 \ --model betabin \ --force --post-optimize --seed 123 # With a matched normal (test run; for production pipelines we recommend the # unmatched workflow described above) $ Rscript $PURECN/PureCN.R --out $OUT/$SAMPLEID \ --tumor $OUT/$SAMPLEID/${SAMPLEID}_coverage_loess.txt.gz \ --normal $OUT/$SAMPLEID/${SAMPLEID_NORMAL}_coverage_loess.txt.gz \ --sampleid $SAMPLEID \ --vcf ${SAMPLEID}_mutect.vcf \ --normaldb $OUT_REF/normalDB_hg19.rds \ --intervals $OUT_REF/baits_hg19_intervals.txt \ --genome hg19 # Recreate output after manual curation of ${SAMPLEID}.csv $ Rscript $PURECN/PureCN.R --rds $OUT/$SAMPLEID/${SAMPLEID}.rds

重要的建议:

即使匹配的法线可用，使用普通数据库进行覆盖规范化通常也更好。当提供匹配的正常覆盖时——正常然后正常覆盖池归一化和去噪步骤被跳过!
始终提供正常覆盖率数据库，以忽略分割中的低质量区域，并增加对高纯度样品中纯合子缺失的敏感性。
再次检查——肿瘤而且——normaldb时，gc归一化或用于(* _loess.txt.gz)或两者都跳过(* _coverage.txt.gz)．
法线面板VCF文件对于映射偏差校正非常有用，特别推荐没有匹配法线的情况。请参阅如何生成此文件的主要小插图的常见问题。它对于测试运行不是必需的。
的MuTect 1.1.7stats文件(VCF之外的主要输出文件)应该提供更好的工件过滤。如果VCF是由执行良好的工件过滤的管道生成的，则不需要此文件。不提供此文件为Mutect 2．
的——post-optimizeFlag定义纯度应同时使用变异等位基因分数和拷贝数来优化，而不是仅使用拷贝数。这导致整个外显子组数据的运行时间显著增加。
如果——从是一个目录，它将使用示例id作为所有输出文件的文件前缀。否则PureCN将使用——从作为前缀。
的——平行标志将启用局部最优的并行拟合。看到BiocParallel获取详细信息。该脚本将使用默认后端。——核心是使用指定数量的cpu而不是默认后端的捷径。只指定两个参数中的一个。请注意，内存使用会随着内核数量的增加而线性增加，内存不足会导致随机崩溃。
——fun-segmentation PSCBS是1.22中的新建议。对间隔权重的支持目前需要一个补丁(参见第1节)1．2)．关于该方法的最佳选择，请参阅下面的详细信息。
——模型betabin是1.22中的新建议，具有更大的正常样本(超过10-15个正常样本)。
默认值被很好地校准，对于大多数样本应该产生接近理想的结果。更改默认值是有意义的一些常见情况:
- 高纯度和高质量:对于期望纯度较高的癌症类型，如卵巢癌，并且当期望质量非常好时(高覆盖率，年轻样本)，——max-copy-number 8．（PureCN报告大于此值的拷贝数，但将停止将SNP等位基因分数拟合到精确的等位基因特定的拷贝数，因为这将在高拷贝数下很快变得不可能-并且计算成本很高。)
- 小面板，高覆盖率:——interval-padding 100(或更高)，需要运行带有此填充或没有间隔文件的变量调用者。对法线VCF面板使用相同的设置，以便侧翼区域的snp有可靠的映射偏差估计。的——max-homozygous-loss参数可能还需要一些调整非常小的面板，周围捕获的删除有很大的差距。
- 细胞系:安全地跳过在细胞系中寻找低纯度溶液:——max-copy-number 8，——min-purity 0.9，——max-purity 0.99．添加——model-homozygous在没有正常污染的样品中找到LOH区域(当VCF中有匹配的正常数据时，不提供此标志)。
- cfDNA:——min-purity 0.1，——min-af 0.01(或更低)和——错误0.0005(或者更低，当有基于ui的错误修正时)。请注意，当真实纯度低于5-7%时，估计纯度可能非常错误;这些样本通常被标记为非异常。
- 所有化验:——max-segments应设置为一个值，以便除少数例外情况外，只有质量较差的样品超过此截止值。对于异质性高的癌型，也建议增加——max-non-clonal到0.3-0.4(这将显著增加全外显子组数据的运行时间)。
- 分割函数的选择也会产生显著的差异，不幸的是，目前还没有一种通用的方法在所有情况下都是最好的。
  - PSCBS:一个很好的和安全的起点，特别是在偏离目标的区域，与目标区域相比，可能会表现出不同的噪声分布。
  - GATK4:最新添加。还没有经过很好的测试PureCN，但从理论上来说，每个间隔的snp数量更大是最好的选择，例如带有拷贝数主干的分析。我们感谢反馈。
  - CBS:简单，快速，经过良好测试。不完全支持SNP信息，因此仅建议用于SNP /间隔比非常小的设置，例如具有健康脱靶覆盖的小型目标面板(<1Mb)(分辨率<150kb，与目标相比具有类似的日志比噪声)。
  - copynumber:用于有多个时间点或活检的病例。这是
    自动选择——additional-tumors目前不支持单样本分析。
  - Hclust/none:用于第三方分割。Hclust为了校准染色体之间的对数比，没有一个很大程度上保持了所提供的一切。
对于检查是否PureCN设置是正确的:
- 对于高质量数据，日志文件中报告的“log-ratio的平均标准偏差”应该相当低。旧的FFPE数据可以在0.4左右，但高覆盖率，相对较新的样本应该接近0.15的最小值。如果off-target的噪声始终比on-target大，可能值得增加off-target bin的大小并从头开始(或者在全外显子组测序的情况下，忽略off-target读取，因为当bin很大和/或有噪声时，它们不能提供太多额外的信息)。
- 与此相关，当所有通过过滤器的间隔中不到10%是脱靶间隔时抛出警告。全外显子组测序通常在这个值附近。如果对数比标准差与目标区域相似，甚至低于目标区域，则值得保留偏离目标区域。否则，偏离目标可能会增加更多的噪音而不是信号。当所有区间的及格率低于5%时，将自动忽略脱靶信息。
- 具有SNPs的靶标比例应在10% ~ 15%之间。如果它明显较低，请确保变量调用者使用50-100bp间隔填充或根本没有间隔文件。还要检查间隔文件是使用诱饵坐标生成的，而不是目标(诱饵BED文件应该有更均匀的大小分布，例如120bp和它的倍数)。
- 日志文件中的“重大样品交叉污染的初始测试”不应该有很多假阳性，即对于大多数样品应该是“不太可能”，而不是“可能”。不充分的伪影去除会导致太多具有低等位基因分数的错误snp调用，混淆了污染调用者。
- 阅读所有警告。

5使用第三方分割运行PureCN

我们的内部PureCN标准化结合PSCBSorgydF4y2BaGATK4细分应该产生极具竞争力的结果，我们鼓励用户尝试并将其与现有渠道进行比较。然而，我们意识到在生产管道中更换工具通常不是一个选择，因此我们使其相对易于使用PureCN使用第三方工具。我们为CNVkit而且GATK4它应该是简单的适应其他工具。

你需要:

第三方工具输出(详见下文)
所有肿瘤样本的VCF文件和一些正常文件(有关所需正常样本的问题见主插图)

5.1一般使用

如果你已经从第三方工具(例如CNVkit，GATK4，EXCAVATOR2)．对于最小的测试运行:

Rscript PURECN / PURECN美元。R——从$OUT/$SAMPLEID \ --sampleid $SAMPLEID \ --seg-file $OUT/$SAMPLEID/${SAMPLEID}.cnvkit.seg \ --vcf ${SAMPLEID}_mutect.vcf \ --intervals $OUT_REF/baits_hg19_intervals.txt \ --genome hg19

有关更多细节和文件格式，请参阅主要插图。

5.2推荐CNVkit使用

对于生产流水线运行，我们再次提供更多关于分析和基因组的信息。这里一个CNVkit例子:

#建议:提供一个正常的面板VCF，以消除映射偏差，预计算#特定位置的偏差，以更快地运行大面板的运行时间#这只需要为每个测试Rscript $PURECN/NormalDB做一次。R——out-dir$OUT_REF --normal-panel $NORMAL_PANEL \ --assay agilent_v6 --genome hg19 --force # Export the segmentation in DNAcopy format cnvkit.py export seg $OUT/$SAMPLEID/${SAMPLEID}_cnvkit.cns --enumerate-chroms \ -o $OUT/$SAMPLEID/${SAMPLEID}_cnvkit.seg # Run PureCN by providing the *.cnr and *.seg files Rscript $PURECN/PureCN.R --out $OUT/$SAMPLEID \ --sampleid $SAMPLEID \ --tumor $OUT/$SAMPLEID/${SAMPLEID}_cnvkit.cnr \ --seg-file $OUT/$SAMPLEID/${SAMPLEID}_cnvkit.seg \ --mapping-bias-file $OUT_REF/mapping_bias_agilent_v6_hg19.rds \ --vcf ${SAMPLEID}_mutect.vcf \ --stats-file ${SAMPLEID}_mutect_stats.txt \ --snp-blacklist hg19_simpleRepeats.bed \ --genome hg19 \ --fun-segmentation Hclust \ --force --post-optimize --seed 123

重要的建议:

的——fun-segmentation参数控制数据是否应该使用种系BAFs重新分段(默认)。将此值设置为没有一个是否应按原样使用所提供的分段。推荐的Hclust将只集群提供的段。
自CNVkit中提供所有必要的信息* .cnr输出文件，——时间间隔参数不是必需的。
在测试运行中，特别是当输入VCF包含匹配的正常信息时，——mapping-bias-file可以跳过
CNVkit不建议在没有正常参考样本的情况下运行
的——stats文件仅支持Mutect 1.1.7．Mutect 2直接在VCF中提供过滤器标志。

5.3推荐GATK4使用

#建议:提供一个正常的面板基因组数据库，以消除映射#偏差，预计算位置特定偏差，以更快地运行时间#与大型面板。每次试验只需要做一次。Rscript PURECN / NormalDB美元。R——out-dir$OUT_REF \ --normal-panel $GENOMICSDB-WORKSPACE-PATH/pon_db \ --assay agilent_v6 --genome hg19 --force Rscript $PURECN/PureCN.R --out $OUT/$SAMPLEID \ --sampleid $SAMPLEID \ --tumor $OUT/$SAMPLEID/${SAMPLEID}.hdf5 \ --log-ratio-file $OUT/$SAMPLEID/${SAMPLEID}.denoisedCR.tsv \ --seg-file $OUT/$SAMPLEID/${SAMPLEID}.modelFinal.seg \ --mapping-bias-file $OUT_REF/mapping_bias_agilent_v6_hg19.rds \ --vcf ${SAMPLEID}_mutect2_filtered.vcf \ --snp-blacklist hg19_simpleRepeats.bed \ --genome hg19 \ --fun-segmentation Hclust \ --force --post-optimize --seed 123

重要的建议:

的——fun-segmentation在大多数情况下可以设置为none。这将在很大程度上保持分割。Hclust聚类片段，以避免过度分割和校准跨染色体的对数比。因此，这将改变GATK4分割，这可能不是我们所希望的。
Beta版支持，提供CollectAllelicCounts输出而不是Mutect是可用的。使用——vcf $ {SAMPLEID} .allelicCounts.tsv自动导入SNP计数并将其转换为受支持的VCF。注意，这将不会使用任何体细胞SNV和indel信息可用Mutectvcf，因此也不会提供任何克隆注释。

6生物标记物

Dx。R提供通常用作生物标志物的拷贝数和突变指标，最重要的是肿瘤突变负担(TMB)，染色体不稳定性(CIN)和突变特征。

提供一个包含可调用区域的BED文件，例如通过# GATK CallableLoci获得的文件。用于计算每兆酶突变数和#以排除低质量区域。grep CALLABLE ${SAMPLEID}_callable_status。bed > \ ${SAMPLEID}_callable_status_filtered。bed #只计算可调用区域的突变，也减去在PureCN中被忽略的突变。Rvia --snp-blacklist, like simple repeats, from the # mutation per megabase calculation # Also search for the COSMIC mutation signatures # (http://cancer.sanger.ac.uk/cosmic/signatures) Rscript $PureCN/Dx.R --out $OUT/$SAMPLEID/$SAMPLEID \ --rds $OUT/SAMPLEID/${SAMPLEID}.rds \ --callable ${SAMPLEID}_callable_status_filtered.bed \ --exclude hg19_simpleRepeats.bed \ --signatures # Restrict mutation burden calculation to coding sequences Rscript $PureCN/FilterCallableLoci.R --genome hg19 \ --in-file ${SAMPLEID}_callable_status_filtered.bed \ --out-file ${SAMPLEID}_callable_status_filtered_cds.bed \ --exclude '^HLA' Rscript $PureCN/Dx.R --out $OUT/$SAMPLEID/${SAMPLEID}_cds \ --rds $OUT/SAMPLEID/${SAMPLEID}.rds \ --callable ${SAMPLEID}_callable_status_filtered_cds.bed \ --exclude hg19_simpleRepeats.bed

重要的建议:

运行GATK CallableLoci与——minDepth N其中N约为所有样本平均目标覆盖率的20%。
如果——可调用的时，所有经过筛选器的间隔都假定是可调用的。

7参考

表1: IntervalFile
参数名称	对应的PureCN参数	PureCN函数
`——fasta`	`reference.file`	`preprocessIntervals`
`——文件内部`	`interval.file`	`preprocessIntervals`
`——非目标`	`off.target`	`preprocessIntervals`
`——average-target-width`	`average.target.width`	`preprocessIntervals`
`——min-target-width`	`min.target.width`	`preprocessIntervals`
`——小目标`	`small.targets`	`preprocessIntervals`
`——average-off-target-width`	`average.off.target.width`	`preprocessIntervals`
`——off-target-seqlevels`	`off.target.seqlevels`	`preprocessIntervals`
`——mappability`	`mappability`	`preprocessIntervals`
`——min-mappability`	`min.mappability`	`preprocessIntervals`
`——reptiming`	`reptiming`	`preprocessIntervals`
`——average-reptiming-width`	`average.reptiming.width`	`preprocessIntervals`
`——基因组`	`txdb`，`org`	`annotateTargets`
`——out-file`
`——出口`		`rtracklayer:出口`
`——版本- v`
`-力- f`
`——帮助- h`

表2: 报道
参数名称	对应的PureCN参数	PureCN函数
`——砰`	`bam.file`	`calculateBamCoverageByInterval`
`——白`	`index.file`	`calculateBamCoverageByInterval`
`——覆盖`	`coverage.file`	`correctCoverageBias`
`——时间间隔`	`interval.file`	`correctCoverageBias`
`——方法`	`方法`	`correctCoverageBias`
`——keep-duplicates`	`keep.duplicates`	`calculateBamCoverageByInterval`
`——块`	`块`	`calculateBamCoverageByInterval`
`——remove-mapq0`	`mapqFilter`	`ScanBamParam`
`——skip-gc-norm`		`correctCoverageBias`
`——out-dir`
`——核心`		提供多个bam时使用的cpu数量
`——平行`		使用默认BiocParallel后端提供多个bam
`——种子`
`——版本- v`
`-力- f`
`——帮助- h`

表3: NormalDB
参数名称	对应的PureCN参数	PureCN函数
`——覆盖率文件`	`normal.coverage.files`	`createNormalDatabase`
`——normal-panel`	`normal.panel.vcf.file`	`calculateMappingBiasVcf`
`——分析——`	可选化验名称	用于输出文件名。
`——基因组- g`	可选基因组版本	用于输出文件名。
`——genomicsdb-af-field`	用于genome icsdb导入，等位基因片段字段	`calculateMappingBiasGatk4`
`——min-normals-position-specific-fit`	`min.normals.position.specific.fit`	`calculateMappingBiasVcf`，`calculateMappingBiasGatk4`
`——out-dir - o`
`——版本- v`
`-力- f`
`——帮助- h`

表4: PureCN
参数名称	对应的PureCN参数	PureCN函数
`——sampleid -我`	`sampleid`	`runAbsoluteCN`
`——正常`	`normal.coverage.file`	`runAbsoluteCN`
`——肿瘤`	`tumor.coverage.file`	`runAbsoluteCN`
`——已`	`vcf.file`	`runAbsoluteCN`
`——rds`	`file.rds`	`readCurationFile`
`——mapping-bias-file`	`mapping.bias.file`	`setMappingBiasVcf`
`——normaldb`	`normalDB`(序列化`saveRDS`）	`calculateTangentNormal`，`filterTargets`
`——seg-file`	`seg.file`	`runAbsoluteCN`
`——log-ratio-file`	`log.ratio`	`runAbsoluteCN`
`——additional-tumors`	`tumor.coverage.files`	`processMultipleSamples`
`——性`	`性`	`runAbsoluteCN`
`——基因组`	`基因组`	`runAbsoluteCN`
`——时间间隔`	`interval.file`	`runAbsoluteCN`
`——stats文件`	`stats.file`	`filterVcfMuTect`
`——min-af`	`af.range`	`filterVcfBasic`
`——snp-blacklist`	`snp.blacklist`	`filterVcfBasic`
`——错误`	`错误`	`runAbsoluteCN`
`——db-info-flag`	`DB.info.flag`	`runAbsoluteCN`
`——popaf-info-field`	`POPAF.info.field`	`runAbsoluteCN`
`——cosmic-cnt-info-field`	`Cosmic.CNT.info.field`	`runAbsoluteCN`
`——min-cosmic-cnt`	`min.cosmic.cnt`	`setPriorVcf`
`——interval-padding`	`interval.padding`	`filterVcfBasic`
`——min-total-counts`	`min.total.counts`	`filterIntervals`
`——min-fraction-offtarget`	`min.fraction.offtarget`	`filterIntervals`
`——fun-segmentation`	`fun.segmentation`	`runAbsoluteCN`
`——α`	`α`	`segmentationCBS`
`——undo-sd`	`撤销。SD`	`segmentationCBS`
`——changepoints-penalty`	`changepoints.penalty`	`segmentationGATK4`
`——additional-cmd-args`	`additional.cmd.args`	`segmentationGATK4`
`——max-segments`	`max.segments`	`runAbsoluteCN`
`——min-logr-sdev`	`min.logr.sdev`	`runAbsoluteCN`
`——min-purity`	`test.purity`	`runAbsoluteCN`
`——max-purity`	`test.purity`	`runAbsoluteCN`
`——min-ploidy`	`min.ploidy`	`runAbsoluteCN`
`——max-ploidy`	`max.ploidy`	`runAbsoluteCN`
`——max-copy-number`	`test.num.copy`	`runAbsoluteCN`
`——post-optimize`	`post.optimize`	`runAbsoluteCN`
`——bootstrap-n`	`n`	`bootstrapResults`
`——speedup-heuristics`	`speedup.heuristics`	`runAbsoluteCN`
`——model-homozygous`	`model.homozygous`	`runAbsoluteCN`
`——模型`	`模型`	`runAbsoluteCN`
`——log-ratio-calibration`	`log.ratio.calibration`	`runAbsoluteCN`
`——max-non-clonal`	`max.non.clonal`	`runAbsoluteCN`
`——max-homozygous-loss`	`max.homozygous.loss`	`runAbsoluteCN`
`——out-vcf`	`return.vcf`	`predictSomatic`
`, - o`
`——平行`	`BPPARAM`	`runAbsoluteCN`
`——核心`	`BPPARAM`	`runAbsoluteCN`
`——种子`
`——版本- v`
`-力- f`
`——帮助- h`

表5: Dx
参数名称	对应的PureCN参数	PureCN函数
`——rds`	`file.rds`	`readCurationFile`
`——可调用的`	`可调用的`	`callMutationBurden`
`——排除`	`排除`	`callMutationBurden`
`——max-prior-somatic`	`max.prior.somatic`	`callMutationBurden`
`——签名`		`deconstructSigs: whichSignatures`
`——signature-databases`		`deconstructSigs: whichSignatures`
`——从`
`——版本- v`
`-力- f`
`——帮助- h`

PureCN最佳实践

2022年11月1日

摘要

包

1先决条件

1．1以前稳定版本的更新

1．2安装

2准备环境和分析特定的参考文件

3.创建VCF文件

4使用内部分割运行PureCN

4．1报道

4.2NormalDB

4.３PureCN

5使用第三方分割运行PureCN

5.1一般使用

5.2推荐CNVkit使用

5.3推荐GATK4使用

6生物标记物

7参考