内容

1初始化RaMWAS参数

这里有几种方法来初始化参数调用RaMWAS管道功能。可以存储在一个R参数列表如下:

param = ramwasParameters (dirproject = "。"dirbam =“bams filebamlist = " bam_list。txt”, filecpgset = " Simulated_chromosome。rds”, cputhreads = 2, scoretag = " MAPQ”, minscore = 4, minfragmentsize = 50, maxfragmentsize = 250, filecovariates = "协变量。txt”, modelcovariates = NULL, modeloutcome = "时代”,modelPCs = 0, toppvthreshold = 1 e-5 cvnfolds = 10, mmalpha = 0, mmncpgs = c (5、10、50、100、500、1000、5000、10000))

另外,参数可以设置在一个单独的代码文件,这是加工成上面的列表parametersFromFile函数。R代码文件可以包含行是这样的:

# # # R参数文件dirbam = " / ramwas_project / bams / " dirproject = filebamlist =“ramwas_project / / ramwas_project / 000 _list_of_files。txt作为“scoretag = minscore = 100 # # #如果(.Platform $ OS平台相关的部分。类型= =“windows”) {filecpgset = " C: / RaMWAS / CpG_set / cpgset_hg19_SNPS_at_MAF_0.05。rds "}else { filecpgset="/computing_cluster/ramwas/cpgset_hg19_SNPS_at_MAF_0.05.rds" }

2所有参数的解释

2.1参数指向目录

项目目录参数dirproject。指定的文件文件*参数是寻找在这里,除非他们有指定完整的路径。默认情况下dirproject设置为当前目录。

dirbam目录是RaMWAS希望找到BAM文件的位置。如果它不是一个绝对路径,它被认为是相对的dirproject

dirfilter目录,默认情况下,一样的dirproject。所有文件由RaMWAS创建在这个目录中。如果用户想要测试不同阅读筛选规则,他们可以设置dirfilter真正的。这将设置为“Filter_MAPQ_4”,有“MAPQ”BAM字段用于过滤和“4”是阈值。

dirrbam参数是RaMWAS节省RaMWAS原始数据文件的位置(位置)开始扫描BAMs之后。这是默认情况下,位于“rds_rbam”dirfilter

dirrqc参数是位置RaMWAS BAMs扫描后保存在R QC文件格式。这是默认情况下,位于“rds_qc”dirfilter

dirqc参数是位置RaMWAS节省QC情节和文本文件扫描BAMs后(BAM)质量控制信息。这是默认情况下,位于“质量控制”dirfilter

dircoveragenorm参数就是RaMWAS保存的子目录覆盖矩阵在步骤3的管道。“coverage_norm_123”默认情况下样品的数量(123)和位于dirfilter

dirtemp参数是RaMWAS存储临时文件的目录覆盖矩阵的施工步骤3的管道。默认是“临时工”,位于dircoveragenorm。获得更好的性能,可以设置为一个位置在不同的硬盘上dircoveragenorm

dirpca参数的子目录RaMWAS节省PCA分析步骤4的管道。“PCA_12_cvrts_0b0a0c”默认情况下(12是退化,反是0 b0a0c的数量是一个独特的代码来区分不同的12协变量)和位于dircoveragenorm

dirmwas参数的子目录RaMWAS节省mwa分析步骤5的结果。默认“Testing_age_7_PCs”(年龄是被测试的表型和7是许多顶尖的电脑包含在模型)和位于dirpca

dircv参数是甲基化的子目录,RaMWAS保存结果风险评分分析步骤7。“CV_10_folds”默认情况下(10 n次交叉验证的折叠)和位于dirmwas

2.2参数指向文件

2.2.1BAM的名字

参数filebamlist如果定义,必须指向一个文本文件,每行一个BAM文件名。BAM文件名可以包含路径,相对于dirbam或绝对的。

这些文件可能看起来是这样的。

batch1 / b1sample1。bam batch1 / b1sample2。bam batch2 / b2sample1。bam batch2 / b2sample2。bam batch2 / b2sample3。bam batch4 / sample4.bam

然后加载到该文件bamnames参数,用“。bam”扩展了。

注意:BAM文件名必须是不同的。例如,BAMS下面的列表允许的,它包含“sample1。bam”两次:

batch1 / sample1。bam batch1 / sample2。bam batch2 / sample1.bam

2.2.2BAM样本匹配

filebam2sample参数让RaMWAS知道BAM样本对应。它提供的信息BAMs来自同一样本结合起来。在每一行filebam2sample必须有信息的一个示例。如果sample1包含读取从bam1 bam2 bam3,应该行

sample1 = bam1 bam2 bam3

如果样品名称匹配的bam名称可以包含这个名字

sample2

filebam2sample文件扫描进bam2sample列表。列表的元素是bam的名字,他们的名字是样本的名字。例如:

bam2sample =列表(sample1 = c (“bam1”、“bam2”,“bam3”), sample2 =“sample2”)

2.2.3CpG位置

RaMWAS计算CpG分数和执行进一步的分析的一组论文认定(或位置)由用户通过定义filecpgset参数。的filecpgset参数必须指向一个.rds文件(文件保存使用saveRDS函数),位置存储为一个集列表与一个排序向量的CpG每个染色体位置。

cpgset =列表(chr1 = c (12 l, 57 l、123 l), chr2 = c (45 l、95 l、99 l, 111 l), chr3 = c (22 l, 40 l、199 l, 211 l))

在实践中,应该是依靠集创建的参考基因组和可以包括论文认定常见snp。

可选地,参数filenoncpgset,可以指向一个文件存储审查地点远离任何论文认定。

看到更多CpG集中央人民政府设置装饰图案

2.2.4文件共

的参数filecovariates如果定义,必须指向一个文件包含表型信息和协变量可用的样本。如果文件扩展”。csv”,它被认为是逗号分隔,否则——标签分离。它必须有一个标题和第一列必须有样品所定义的名字bam2sample参数(见上图)。

中的数据filecovariates读到协变量参数。

2.3多线程

许多地方RaMWAS是并行的。的cputhreads参数确定的最大数量的CPU密集型任务并行运行。默认情况下cputhreads将CPU核的数量。

一些磁盘密集型任务。这样的任务并行运行的最大数量是设定的diskthreads参数。默认情况下diskthreads值是2。更高的值可以在机器的内存是有益的。

在一些系统性能会更好如果禁止同时访问不同的工作文件。执行这个filematrices集usefilelock = TRUE

2.4读过滤

读取所过滤scoretag参数,它通常是“MAPQ”字段或“作为”标签的BAM文件(BAM文件格式)。的minscore参数定义了最小容许分数,读分数低于被排除在外。

如果有超过maxrepeats读相同的起始位置,这多余的被假定为模板制备或放大的结果的工件和计数复位maxrepeaets(这是默认设置为3)。

2.5覆盖矩阵

的论文认定CpG设置定义的filecpgset过滤是基于他们的报道。

  • CpG必须等于或大于平均水平minavgcpgcoverage(默认值是0.3)。
  • CpG必须至少有minnonzerosamples在非零覆盖比例的样本
    (默认值为0.3,即CpG是保留至少30%的样品是否有非零覆盖)。

在这一步可执行文件操作更快如果做得很大块。设置块大小使用buffersize参数。是默认设置为1 GB (buffersize = 1 e9)。

数值带8个字节存储完整的精度。覆盖矩阵不需要这样的精度,可以安全地存储4个字节/值(单精度)。设定的价值大小doublesize默认参数,也就是4。

2.6PCA和mwa

PCA和mwa正确设定的变异解释为协变量选择modelcovariates。的modelcovariates参数必须变量名称filecovariates/协变量

默认情况下,测试了线性模型包括一个常数。排除它,集modelhasconstant参数

mwa测试标准化协会CpG覆盖modeloutcome,占的变化modelPCs主要组件。

mwa产生QQ-plotdirmwas。QQ-plot的标题可以更改的qqplottitle参数。排除标题设置qqplottitle = " "

前mwa结果保存在一个文本文件Top_tests.txt。参数toppvthreshold定义假定值阈值选择的结果。另外,它可以定义的数量最高的结果,如果是设置为值大于1。

2.7注释的结果

通过使用注释biomaRt。包中。

这些参数包括:

  • bihost——BioMart主机站点。
    默认是grch37.ensembl.org
  • bimart——BioMart数据库名称,见listMarts ()。
    默认是ENSEMBL_MART_ENSEMBL
  • bidataset——BioMart数据集,看到listDatasets ()。
  • biattributes——感兴趣的属性,看到listAttributes ()。默认是c (“hgnc_symbol”、“entrezgene”,“链”)
  • bifilters-列表过滤器(如果有的话),看看listFilters ()。
  • biflank:表示的最大允许CpG注释元素的距离。

这里有一个例子如何选择自定义biomart注释跟踪:

库(biomaRt)库(ramwas) #首先选择一个主机。bihost = " grch37.ensembl.org " #首先我们列表数据库listOfMarts = listMarts(主机= bihost)迎合(头(listOfMarts 10)) #选择一个数据库bimart = " ENSEMBL_MART_ENSEMBL " #连接到数据库集市= useMart (biomart = bimart主机= bihost) #列表数据库中的数据集listOfDatasets = listDatasets(集市=集市)迎合(头(listOfDatasets 10)) # Pisk数据集bidataset =“hsapiens_gene_ensembl”#连接到数据集市= useMart (biomart = bimart,数据集= bidataset主机= bihost) #列表属性listOfAttributes = listAttributes(集市)迎合(头(listOfAttributes 10)) #选择属性biattributes = c (“hgnc_symbol”、“entrezgene”,“链”)listOfFilters = listFilters(集市)迎合(头(listOfFilters, 20)) #选择一个过滤器bifilters =列表(with_hgnc_trans_name = TRUE) #测试位置对应=“chr1 pos = 15975530参数= ramwasParameters (bihost = bihost bimart = bimart bidataset = bidataset biattributes = biattributes bifilters = bifilters biflank = 0)伊斯兰教纪元= ramwasAnnotateLocations (param,空空的,pos)迎合(伊斯兰教纪元)

2.8甲基化风险评分

RaMWAS预测结果变量(modeloutcomes采用顶尖的参数)mmncpgs从mwa论文认定。这样做预测是为每个折叠k-fold交叉验证和预测性能测量通过相关性和(二进制结果)ROC曲线。

运行多个顶级论文认定,的过程参数mmncpgs可以设置为一个向量的多个值。

弹性网混合参数α可以通过设置mmalpha参数。折叠的数量cvnfolds在K-fold交叉验证默认是10。

分为折叠是随机的。随机种子可以设置的randseed设置为参数18090212默认情况下,一致性。

2.8.1发布选择折叠的数量cvnfolds在交叉验证

在选择折叠,K,在K-fold交叉验证研究面临着权衡。一方面,大K允许训练集(大小约\ (\ N压裂{K - 1} {K} \)更好地匹配完整的数据集的大小。另一方面,交叉验证计算复杂性的增加线性与k平衡,\ (K = 5 \)\ (10 \)经常被选择。最极端的例子\ (K = N \)被称为分析交叉验证过程。

2.9联合分析基因型数据

甲基化和基因型数据的联合分析在相应的描述装饰图案

苏格兰民族党数据必须存储在一个filematrix维匹配CpG评分矩阵。必须定义它的名字fileSNPs参数,用绝对路径或相对dircoveragenorm

联合分析的结果存储在dirSNPs目录中。默认情况下,在创建目录dircoveragenorm目录中。