这里有几种方法来初始化参数调用RaMWAS管道功能。可以存储在一个R参数列表如下:
param = ramwasParameters (dirproject = "。"dirbam =“bams filebamlist = " bam_list。txt”, filecpgset = " Simulated_chromosome。rds”, cputhreads = 2, scoretag = " MAPQ”, minscore = 4, minfragmentsize = 50, maxfragmentsize = 250, filecovariates = "协变量。txt”, modelcovariates = NULL, modeloutcome = "时代”,modelPCs = 0, toppvthreshold = 1 e-5 cvnfolds = 10, mmalpha = 0, mmncpgs = c (5、10、50、100、500、1000、5000、10000))
另外,参数可以设置在一个单独的代码文件,这是加工成上面的列表parametersFromFile
函数。R代码文件可以包含行是这样的:
# # # R参数文件dirbam = " / ramwas_project / bams / " dirproject = filebamlist =“ramwas_project / / ramwas_project / 000 _list_of_files。txt作为“scoretag = minscore = 100 # # #如果(.Platform $ OS平台相关的部分。类型= =“windows”) {filecpgset = " C: / RaMWAS / CpG_set / cpgset_hg19_SNPS_at_MAF_0.05。rds "}else { filecpgset="/computing_cluster/ramwas/cpgset_hg19_SNPS_at_MAF_0.05.rds" }
项目目录参数dirproject
。指定的文件文件*
参数是寻找在这里,除非他们有指定完整的路径。默认情况下dirproject
设置为当前目录。
的dirbam
目录是RaMWAS希望找到BAM文件的位置。如果它不是一个绝对路径,它被认为是相对的dirproject
。
的dirfilter
目录,默认情况下,一样的dirproject
。所有文件由RaMWAS创建在这个目录中。如果用户想要测试不同阅读筛选规则,他们可以设置dirfilter
来真正的
。这将设置为“Filter_MAPQ_4”,有“MAPQ”BAM字段用于过滤和“4”是阈值。
的dirrbam
参数是RaMWAS节省RaMWAS原始数据文件的位置(位置)开始扫描BAMs之后。这是默认情况下,位于“rds_rbam”dirfilter
。
的dirrqc
参数是位置RaMWAS BAMs扫描后保存在R QC文件格式。这是默认情况下,位于“rds_qc”dirfilter
。
的dirqc
参数是位置RaMWAS节省QC情节和文本文件扫描BAMs后(BAM)质量控制信息。这是默认情况下,位于“质量控制”dirfilter
。
的dircoveragenorm
参数就是RaMWAS保存的子目录覆盖矩阵在步骤3的管道。“coverage_norm_123”默认情况下样品的数量(123)和位于dirfilter
。
的dirtemp
参数是RaMWAS存储临时文件的目录覆盖矩阵的施工步骤3的管道。默认是“临时工”,位于dircoveragenorm
。获得更好的性能,可以设置为一个位置在不同的硬盘上dircoveragenorm
。
的dirpca
参数的子目录RaMWAS节省PCA分析步骤4的管道。“PCA_12_cvrts_0b0a0c”默认情况下(12是退化,反是0 b0a0c的数量是一个独特的代码来区分不同的12协变量)和位于dircoveragenorm
。
的dirmwas
参数的子目录RaMWAS节省mwa分析步骤5的结果。默认“Testing_age_7_PCs”(年龄是被测试的表型和7是许多顶尖的电脑包含在模型)和位于dirpca
。
的dircv
参数是甲基化的子目录,RaMWAS保存结果风险评分分析步骤7。“CV_10_folds”默认情况下(10 n次交叉验证的折叠)和位于dirmwas
。
参数filebamlist
如果定义,必须指向一个文本文件,每行一个BAM文件名。BAM文件名可以包含路径,相对于dirbam
或绝对的。
这些文件可能看起来是这样的。
batch1 / b1sample1。bam batch1 / b1sample2。bam batch2 / b2sample1。bam batch2 / b2sample2。bam batch2 / b2sample3。bam batch4 / sample4.bam
然后加载到该文件bamnames
参数,用“。bam”扩展了。
注意:BAM文件名必须是不同的。例如,BAMS下面的列表不允许的,它包含“sample1。bam”两次:
batch1 / sample1。bam batch1 / sample2。bam batch2 / sample1.bam
的filebam2sample
参数让RaMWAS知道BAM样本对应。它提供的信息BAMs来自同一样本结合起来。在每一行filebam2sample
必须有信息的一个示例。如果sample1包含读取从bam1 bam2 bam3,应该行
sample1 = bam1 bam2 bam3
如果样品名称匹配的bam名称可以包含这个名字
sample2
的filebam2sample
文件扫描进bam2sample
列表。列表的元素是bam的名字,他们的名字是样本的名字。例如:
bam2sample =列表(sample1 = c (“bam1”、“bam2”,“bam3”), sample2 =“sample2”)
RaMWAS计算CpG分数和执行进一步的分析的一组论文认定(或位置)由用户通过定义filecpgset
参数。的filecpgset
参数必须指向一个.rds文件(文件保存使用saveRDS
函数),位置存储为一个集列表
与一个排序向量的CpG每个染色体位置。
cpgset =列表(chr1 = c (12 l, 57 l、123 l), chr2 = c (45 l、95 l、99 l, 111 l), chr3 = c (22 l, 40 l、199 l, 211 l))
在实践中,应该是依靠集创建的参考基因组和可以包括论文认定常见snp。
可选地,参数filenoncpgset
,可以指向一个文件存储审查地点远离任何论文认定。
看到更多CpG集中央人民政府设置装饰图案
的参数filecovariates
如果定义,必须指向一个文件包含表型信息和协变量可用的样本。如果文件扩展”。csv”,它被认为是逗号分隔,否则——标签分离。它必须有一个标题和第一列必须有样品所定义的名字bam2sample
参数(见上图)。
中的数据filecovariates
读到协变量
参数。
许多地方RaMWAS是并行的。的cputhreads
参数确定的最大数量的CPU密集型任务并行运行。默认情况下cputhreads
将CPU核的数量。
一些磁盘密集型任务。这样的任务并行运行的最大数量是设定的diskthreads
参数。默认情况下diskthreads
值是2。更高的值可以在机器的内存是有益的。
在一些系统性能会更好如果禁止同时访问不同的工作文件。执行这个filematrices集usefilelock = TRUE
。
读取所过滤scoretag
参数,它通常是“MAPQ”字段或“作为”标签的BAM文件(BAM文件格式)。的minscore
参数定义了最小容许分数,读分数低于被排除在外。
如果有超过maxrepeats
读相同的起始位置,这多余的被假定为模板制备或放大的结果的工件和计数复位maxrepeaets
(这是默认设置为3)。
的论文认定CpG设置定义的filecpgset
过滤是基于他们的报道。
minavgcpgcoverage
(默认值是0.3)。minnonzerosamples
在非零覆盖比例的样本在这一步可执行文件操作更快如果做得很大块。设置块大小使用buffersize
参数。是默认设置为1 GB (buffersize = 1 e9
)。
数值带8个字节存储完整的精度。覆盖矩阵不需要这样的精度,可以安全地存储4个字节/值(单精度)。设定的价值大小doublesize
默认参数,也就是4。
PCA和mwa正确设定的变异解释为协变量选择modelcovariates
。的modelcovariates
参数必须变量名称filecovariates
/协变量
。
默认情况下,测试了线性模型包括一个常数。排除它,集modelhasconstant
参数假
。
mwa测试标准化协会CpG覆盖modeloutcome
,占的变化modelPCs
主要组件。
mwa产生QQ-plotdirmwas
。QQ-plot的标题可以更改的qqplottitle
参数。排除标题设置qqplottitle = " "
。
前mwa结果保存在一个文本文件Top_tests.txt
。参数toppvthreshold
定义假定值阈值选择的结果。另外,它可以定义的数量最高的结果,如果是设置为值大于1。
通过使用注释biomaRt
。包中。
这些参数包括:
bihost
——BioMart主机站点。grch37.ensembl.org
。bimart
——BioMart数据库名称,见listMarts ()。ENSEMBL_MART_ENSEMBL
。bidataset
——BioMart数据集,看到listDatasets ()。biattributes
——感兴趣的属性,看到listAttributes ()。默认是c (“hgnc_symbol”、“entrezgene”,“链”)
。bifilters
-列表过滤器(如果有的话),看看listFilters ()。biflank
:表示的最大允许CpG注释元素的距离。这里有一个例子如何选择自定义biomart注释跟踪:
库(biomaRt)库(ramwas) #首先选择一个主机。bihost = " grch37.ensembl.org " #首先我们列表数据库listOfMarts = listMarts(主机= bihost)迎合(头(listOfMarts 10)) #选择一个数据库bimart = " ENSEMBL_MART_ENSEMBL " #连接到数据库集市= useMart (biomart = bimart主机= bihost) #列表数据库中的数据集listOfDatasets = listDatasets(集市=集市)迎合(头(listOfDatasets 10)) # Pisk数据集bidataset =“hsapiens_gene_ensembl”#连接到数据集市= useMart (biomart = bimart,数据集= bidataset主机= bihost) #列表属性listOfAttributes = listAttributes(集市)迎合(头(listOfAttributes 10)) #选择属性biattributes = c (“hgnc_symbol”、“entrezgene”,“链”)listOfFilters = listFilters(集市)迎合(头(listOfFilters, 20)) #选择一个过滤器bifilters =列表(with_hgnc_trans_name = TRUE) #测试位置对应=“chr1 pos = 15975530参数= ramwasParameters (bihost = bihost bimart = bimart bidataset = bidataset biattributes = biattributes bifilters = bifilters biflank = 0)伊斯兰教纪元= ramwasAnnotateLocations (param,空空的,pos)迎合(伊斯兰教纪元)
RaMWAS预测结果变量(modeloutcomes
采用顶尖的参数)mmncpgs
从mwa论文认定。这样做预测是为每个折叠k-fold交叉验证和预测性能测量通过相关性和(二进制结果)ROC曲线。
运行多个顶级论文认定,的过程参数mmncpgs
可以设置为一个向量的多个值。
弹性网混合参数α可以通过设置mmalpha
参数。折叠的数量cvnfolds
在K-fold交叉验证默认是10。
分为折叠是随机的。随机种子可以设置的randseed
设置为参数18090212
默认情况下,一致性。
cvnfolds
在交叉验证在选择折叠,K,在K-fold交叉验证研究面临着权衡。一方面,大K允许训练集(大小约\ (\ N压裂{K - 1} {K} \)更好地匹配完整的数据集的大小。另一方面,交叉验证计算复杂性的增加线性与k平衡,\ (K = 5 \)或\ (10 \)经常被选择。最极端的例子\ (K = N \)被称为分析交叉验证过程。
甲基化和基因型数据的联合分析在相应的描述装饰图案。
苏格兰民族党数据必须存储在一个filematrix维匹配CpG评分矩阵。必须定义它的名字fileSNPs
参数,用绝对路径或相对dircoveragenorm
。
联合分析的结果存储在dirSNPs
目录中。默认情况下,在创建目录dircoveragenorm
目录中。