biscuiteer 1.12.0
knitr::opts_chunk$set(警告=FALSE,消息=FALSE)
biscuiteer
是包处理输出从饼干成bsseq对象。它包括许多特性,例如VCF报头解析、收缩m值计算(可用于隔间推断)和年龄推断。然而,位点和区域级差异甲基化推断的任务被委托给其他包(如dmrseq
).
从Bioconductor,
如果(!requireNamespace(“BiocManager”,静静地=真正的))install.packages(“BiocManager”)BiocManager::安装(“biscuiteer”)
GitHub上有一个开发版本,可以通过以下方式安装:
biscuiteer
可以加载有标题或无标题的BED文件产生饼干vcf2bed
或饼干mergecg
.无论哪种情况,加载时都需要一个VCF文件饼干
输出。出于实际目的,只有VCF头是用于的biscuiteer
.但是,鼓励用户保留整个VCF,如饼干
可以用来调用snv,并允许以类似于典型的全基因组测序工具的方式进行结构变异检测。此外,饼干
记录软件的版本和在处理输出VCF期间使用的调用参数,这允许更好的再现性。
注意:输入BED和VCF文件在被输入之前都必须被tabix 'edbiscuiteer
.这可以通过跑步来实现bgzip biscuit_output.xxx
紧随其后的是表-p XXX饼干输出. XXX .gz
,在那里xxx
要么是床上
或vcf
.
方法加载数据readBiscuit
函数biscuiteer
:
##加载所需的包:饼干数据
##加载所需的包:ExperimentHub
##加载所需的包:BiocGenerics
## ##附加包:“BiocGenerics”
以下对象从'package:stats'中屏蔽:## ## IQR, mad, sd, var, xtabs
##以下对象从'package:base'中屏蔽:## ## Filter, Find, Map, Position, Reduce, anyduplication, aperm, append, ## as.data.frame, basename, cbind, colnames, dirname, do。调用,## duplicate eval evalq get grep grepl, intersect, is。Unsorted, ## lapply, mapply, match, mget, order, paste, pmax, pmax.int, pmin, ## pmin.int, rank, rbind, rownames, sapply, setdiff, sort, table, ## tapply, union, unique, unsplit,其中。马克斯,which.min
##加载所需包:AnnotationHub
##加载所需包:BiocFileCache
##加载所需的包:dbplyr
##加载饼干数据。
##加载所需的包:bsseq
##加载所需软件包:GenomicRanges
##加载所需的包:stats4
##加载所需的包:S4Vectors
## ##附加包:“S4Vectors”
以下对象从'package:base'中屏蔽:## ## I,展开。网格,unname
##加载所需的包:IRanges
##加载所需包:GenomeInfoDb
##加载所需包:摘要实验
##加载所需包:MatrixGenerics
##加载所需的包:matrixStats
## ##附加包:'MatrixGenerics'
下面的对象从package:matrixStats中屏蔽:## ## colAlls, colAnyNAs, colanyans, colAvgsPerRowSet, colCollapse, ## colCounts, colCummaxs, colCummins, colCumprods, colMadDiffs, colIQRs, colLogSumExps, colMadDiffs, ## colMads, colMaxs, colMeans2, colMedians, colMins, colOrderStats, ## colProds, colQuantiles, colRanges, colRanks, colSdDiffs, colSds, ## colSums2, colTabulates, colVarDiffs, colVars, colWeightedMads, ## colWeightedMeans, colWeightedMedians, colweighteddsds, ## colweighttedvars, rowAlls, rowAnyNAs, rowAnys, colIQRs, colLogSumExps, colMadDiffs,rowAvgsPerColSet, ## rowCollapse, rowCounts, rowCummaxs, rowCummins, rowCumprods, ## rowcumsum, rowDiffs, rowIQRDiffs, rowIQRs, rowLogSumExps, ## rowMadDiffs, rowMads, rowMaxs, rowMeans2, rowMedians, rowMins, ## rowOrderStats, rowProds, rowQuantiles, rowwranges, rowwranks, ## rowSdDiffs, rowSds, rowSums2, rowTabulates, rowVarDiffs, rowVars, ## rowWeightedMads, rowWeightedMeans, rowWeightedMedians, ## rowweighteddsds, rowWeightedVars
##加载所需的包:Biobase
##欢迎访问Bioconductor ## ##小插图包含介绍性材料;查看## 'browseVignettes()'。要引用Bioconductor,请参见##“citation(“Biobase”)”,以及软件包的“citation(“pkgname”)”。
## ##附件:“Biobase”
下面的对象从“package:MatrixGenerics”中屏蔽:## ## rowMedians
以下对象从'package:matrixStats'中屏蔽:## ## anyMissing, rowMedians
下面的对象从'package:ExperimentHub'屏蔽:## ##缓存
下面的对象从'package:AnnotationHub'屏蔽:## ##缓存
# #
# #
# #
##警告:取代以前的导入'BiocParallel::bpstart'由'QDNAseq::bpstart' ##加载'饼干'
orig_bed < -执行(“extdata”,“MCF7_Cunha_chr11p15.bed.gz”,包=“biscuiteer”)orig_vcf < -执行(“extdata”,“MCF7_Cunha_header_only.vcf.gz”,包=“biscuiteer”)包钢< -readBiscuit(BEDfile =orig_bed,VCFfile =orig_vcf,合并=假)
##输入/tmp/RtmpJpfdTo/Rinst6d85a71132a0b/饼干/extdata/MCF7_Cunha_chr11p15.bed.gz
##从/tmp/RtmpJpfdTo/Rinst6d85a71132a0b/饼干/extdata/MCF7_Cunha_header_only.vcf.gz中提取示例名称…
## /tmp/RtmpJpfdTo/Rinst6d85a71132a0b/饼干/extdata/MCF7_Cunha_chr11p15.bed.gz没有头文件使用VCF文件头信息帮助设置列名。
##假设未合并数据。正在检查... ...文件可能没问题。如果你担心,请仔细检查。## /tmp/RtmpJpfdTo/Rinst6d85a71132a0b/饼干/extdata/MCF7_Cunha_chr11p15.bed.gz有254147个索引位点。## /tmp/RtmpJpfdTo/Rinst6d85a71132a0b/饼干/extdata/MCF7_Cunha_chr11p15.bed.gz看起来可以导入。##从/tmp/RtmpJpfdTo/Rinst6d85a71132a0b/饼干/extdata/MCF7_Cunha_chr11p15.bed.gz读取未合并的输入##排除CpG站点的零覆盖率…##加载/tmp/RtmpJpfdTo/Rinst6d85a71132a0b/饼干/extdata/MCF7_Cunha_chr11p15.bed.gz创建bsseq对象......完成!
的元数据饼干
输出可通过以下途径查看:
##长度为3的字符列表##[[“参考基因组”]]hg19。f# #[["饼干版本"]]]0.1.3.20160324 ##[["调用"]]饼干堆砌-r /primary/vari/genomicdata/genomes/hg19/hg1…
如果需要VCF报头的进一步信息,
##类:VCFHeader ## samples(1): MCF7_Cunha ## meta(5):文件格式引用源contig程序## fixed(1): FILTER ## info(3): NS CX N5 ## geno(7): GT DP…GL《GQ》
在有两个单独的BED文件的情况下,您希望在一个bsseq对象中分析它们,您可以使用成立工会
,它是BiocGenerics函数的包装器,结合
.
shuf_bed < -执行(“extdata”,“MCF7_Cunha_chr11p15_shuffled.bed.gz”,包=“biscuiteer”)shuf_vcf < -执行(“extdata”,“MCF7_Cunha_shuffled_header_only.vcf.gz”,包=“biscuiteer”)bisc2 < -readBiscuit(BEDfile =shuf_bed,VCFfile =shuf_vcf,合并=假)
##查看/tmp/RtmpJpfdTo/Rinst6d85a71132a0b/饼干/extdata/ mcf7_cunha_chr11p15_shuffated .bed.gz导入…
##从/tmp/RtmpJpfdTo/Rinst6d85a71132a0b/饼干/extdata/MCF7_Cunha_shuffled_header_only.vcf.gz中提取示例名称…
## /tmp/RtmpJpfdTo/Rinst6d85a71132a0b/饼干/extdata/ mcf7_cunha_chr11p15_shuffle .bed.gz没有头文件。使用VCF文件头信息帮助设置列名。
##假设未合并数据。正在检查... ...文件可能没问题。如果你担心,请仔细检查。## /tmp/RtmpJpfdTo/Rinst6d85a71132a0b/饼干/extdata/ mcf7_cunha_chr11p15_shuffed .bed.gz有254147个索引位点。## /tmp/RtmpJpfdTo/Rinst6d85a71132a0b/饼干/extdata/ mcf7_cunha_chr11p15_shuffledd .bed.gz看起来可以导入。##读取/tmp/RtmpJpfdTo/Rinst6d85a71132a0b/饼干/extdata/ mcf7_cunha_chr11p15_shuffated .bed.gz未合并的输入…##排除CpG站点的零覆盖率…##加载/tmp/RtmpJpfdTo/Rinst6d85a71132a0b/饼干/extdata/ mcf7_cunha_chr11p15_shuffle .bed.gz创建bsseq对象......完成!
epiBED文件格式提供了一种同时分析读级或片段级甲基化和遗传信息的简单方法。readEpibed
提供了将epbed文件中的RLE字符串解析为GRanges对象的功能,以便在R中进行分析。
注意:输入文件必须被bgzip 'ed和tabix 'ed。
epibed。省< -执行(“extdata”,“hct116.nome.epiread.gz”,包=“biscuiteer”)epibed。bsseq<-执行(“extdata”,“hct116.bsseq.epiread.gz”,包=“biscuiteer”)epibed.nome.gr < -readEpibed(epibed =epibed.nome,是多少。省=真正的,基因组=“hg19”,空空的=“chr1”)
解码RLE并转换为GRanges
解码RLE并转换为GRanges
中提供了少量的分析路径biscuiteer
包括A/B区室推断、WGBS数据年龄估计、Polycomb阻滞剂复合物(PRC)结合位点的高甲基化和CpG-poor“部分甲基化结构域”(PMDs)的低甲基化。
当执行A/B隔间推断时,目标是有大致高斯误差的东西。getLogitFracMeth
使用狄利克雷平滑将原始测量值转换为轻度调节的,logit转换的甲基化分数估计,这可以用作输入compartmap
reg < -农庄(seqnames =代表(“chr11”,5),链=代表(“*”,5),范围=IRanges(开始=c(0,2.8 e6,1.17 e7,1.38 e7,1.69 e7),结束=c(2.8 e6,1.17 e7,1.38 e7,1.69 e7,2.2 e7)))压裂< -getLogitFracMeth(包钢,minSamp =1,r =注册)裂缝分析
## seqnames ranges strand | MCF7_Cunha ## | <数值> ## [1]chr11 0-2800000 * | 1.340682 ## [2] chr11 2800000-11700000 * b| 0.575875 ## [3] chr11 11700000-13800000 * | 1.162989 ## | 13800000-16900000 * | 16900000-22000000 * | 0.442985 ## ------- # seqinfo: 1个序列来自一个未指定的基因组;没有seqlengths
biscuiteer
具有使用horvath风格的“时钟”模型来猜测样本年龄的功能(参见阅读2013以获取更多信息)。
注:此函数的预测精度完全取决于用户设置的参数。因此,默认值(如下例所示)只能作为用户探索的起点。
注意:对于所选的表观遗传“时钟”,请引用适当的论文霍法
或horvathshrunk
*王伟,2013所有
* Hannum等人,分子细胞,2013skinandblood
* Horvath等人,老龄化,2018
##评估与年龄相关地区的覆盖率……
所有样本中的所有区域似乎都被充分覆盖。
## $call ## WGBSage(comb,“horvath”)## ## $droppedSamples ## NULL ## ## $droppedRegions ## NULL ## ## $拦截## [1]0.6955073 ## ## $methcoefs ## GRanges对象有2个范围和3个元数据列:## seqnames ranges | MCF7_Cunha ## | <数字> ## chr11 6678129-6678158 * | 0.800000 ## chr11:12030629-12030658 chr11 12030629-12030658 * | 0.833333 ## mcf7_cunha_shuffledcoefs ## <数字> <数字> ## chr11:6678129-6678158 0.250000 0.000792206 # chr11:12030629-12030658 0.247732 -0.138857398 ## ------- # seqinfo: 22序列来自hg19基因组## ## $age ## [,1] ## MCF7_Cunha 33.18896 ## mcf7_cunha_shuffled34.88742