1安装

# #试试http://如果不支持https:// url (!requireNamespace (“BiocManager”,悄悄地= TRUE)) install.packages (“BiocManager”) BiocManager::安装(“梅丽莎”)# #从Github库或下载# install.packages (“devtools”) devtools:: install_github (“andreaskapou /梅丽莎”build_vignettes = TRUE)

2介绍

测量DNA甲基化在单细胞水平的承诺将彻底改变我们对表观遗传控制基因表达的理解。然而,内在的局限性CpG站点的技术导致非常稀疏覆盖20%的覆盖率(约5%),有效地限制了分析曲目半定量的水平。梅丽莎(甲基化推理单细胞分析)[1],是一个贝叶斯分层方法量化空间变化从单细胞基因组甲基化谱地区酸性亚硫酸盐测序数据(scBS-seq)。梅丽莎集群基于当地的单个细胞的甲基化模式,使单个细胞中发现表观遗传差异和相似之处。集群也充当有效regularisation归责方法unassayed CpG甲基化的网站,使单个细胞之间传输的信息。

3读取scBS-seq数据

3.1俾斯麦覆盖转换格式

梅丽莎在很大程度上取决于BPRMeth包(2、3)阅读和处理酸性亚硫酸盐测序数据。它假设首先被处理的数据使用俾斯麦[4],因此从fastq和BAM文件我们将获得一个报道文件通过运行bismark_methylation_extractor命令,如下所示,

#需要俾斯麦bismark_methylation_extractor——全面——merge_non_CpG \——no_header——gzip bedGraph input_file.bam

的格式报道文件如下

<空空的> <开始> <结束> < met_prcg > < met_reads > < unmet_reads >

每一行对应一个在哪里观察到的CpG(即我们至少有一个阅读映射到这个位置)。注意论文认定没有范围不包括在这个文件中。然而这种格式包含冗余信息,因此我们把scBS-seq文件梅丽莎(BPRMeth)要求的格式,这是

<空空的> <开始> < met_level >

在哪里met_level对应于二进制甲基化状态,0或1。我们可以通过调用binarise_fileshelper函数,只需要输入的目录文件,选择输出目录的路径。每个文件的indir对应于一个不同的细胞,是必需的. gz文件格式。

库(Melissa) # Binarise scBS-seq数据binarise_files (indir =“路径”)

请注意新binarised文件调用binarise后不会被压缩。用户应该使用如压缩文件。

gzip文件名

3.2创建甲基化区域

现在我们已经准备好处理binarised输入文件并创建使用功能的甲基化区域BPRMeth包中。简单地说,创建这个对象所需的步骤如下。

首先我们需要注释数据使用read_anno文件。请注意这个文件可以包含注释任何基因组上下文:从启动子和基因增强子,Nanog监管区域和CTCF地区;因此梅丽莎可以用于大量的分析要考虑空间基因组相关性。
接下来,我们需要阅读使用的甲基化数据read_met函数。我们将做这个独立的每个细胞。
最后,create_region_object将创建的甲基化区域对象的主要对象存储甲基化数据。

的create_melissa_data_obj是一个包装器函数做了以上的步骤。请注意这一步是非常重要的,所以仔细阅读所有的参数的目的为下游分析获得正确的对象。

melissa_data < - create_melissa_data_obj (met_dir =“path_to_met_dir anno_file =“anno_file”, x = 3)

的melissa_data美元了包含甲基化数据结构是一个列表的长度\ (N \)(细胞的数量),这个列表的每个元素是另一个列表的长度\ \(米)(基因组区域数量)。内心中的每个条目是一个列表我\ * 2 \ \ ()矩阵,我\ \ ()论文认定的数量,第一列是(相对)CpG位置和第二列包含甲基化状态:甲基化或unmethylated。

3.3库对象

通常很有用,这个对象保存到文件saveRDS函数。对象可以恢复使用readRDS函数。这允许我们进行下游分析而不必重复上述处理步骤。

saveRDS(文件= " melissa_data_obj。rds”, melissa_data)

4过滤基因组区域

接下来,我们将根据不同的过滤器基因组区域标准。注意,这些步骤及其组合可选和依赖于下游分析你想执行。

4.1过滤器的CpG覆盖

基因组非常稀疏的地区覆盖论文认定不是信息推断出甲基化配置文件。因此,我们只考虑至少基因组区域min_cpgcovCpG覆盖在每一个地区。注意这一步实际上不会删除任何基因组区域,这只会将NA这些地区的覆盖率低于阈值。

melissa_data < - filter_by_cpg_coverage (melissa_data min_cpgcov = 10)

4.2过滤器的意思是跨细胞甲基化变异

不同细胞基因组区域没有异质性往往不感兴趣,例如如果我们使用它们识别细胞的亚种。这样我们都将只保留的基因组区域的基因组区域,减少下游分析效率。

melissa_data < - filter_by_variability (melissa_data min_var = 0.2)

4.3过滤器由跨细胞基因组覆盖率

基因组范围只在少数地区跨细胞细胞并不强大的分享信息。例如,一个特定的启动子在5 100个细胞的观察,不包含足够的执行共享的信息,对归责或集群。因此,区域至少不覆盖min_cell_cov_prcg的细胞被过滤掉。

melissa_data < - filter_by_coverage_across_cells (melissa_data min_cell_cov_prcg = 0.5)

4.4库对象

saveRDS(文件= " melissa_data_obj_filtered。rds”, melissa_data)

5案例研究

5.1斯莫尔伍德et al . (2014)

的斯莫尔伍德et al . (2014)[5]数据集可以下载与加入GSE56879数量。这个已经处理过的数据集,我们使用了从俾斯麦覆盖文件。细胞的筛选不通过质量控制(QC)是根据原始研究完成的。看到[5]的补充信息id的细胞通过过滤。

5.2Angermueller et al。(2016)

的Angermueller et al。(2016)[6]数据集可以下载与加入GSE74535数量。这个已经处理过的数据集,我们使用了从俾斯麦覆盖文件。细胞的筛选不通过质量控制(QC)是根据原始研究完成的。看到[5]的补充信息id的细胞通过过滤。

5.3大部分WGBS编码

子样品的分析编码WGBS数据进行批量GM12878 (GEOGSE86765)和H1-hESC (GEOGSE80911)细胞系。这些研究可以获得的BAM文件直接从编码项目门户。

# = = = = = = = = = = = = = = = = = # 1。下载BAM数据DATA_DIR = " . ./编码/ wgbs /“#下载GM12878细胞系wget - p $ {DATA_DIR} GM12878 / https://www.encodeproject.org/files/ENCFF681ASN/@@download ENCFF681ASN.bam #下载H1-hESC细胞系wget - p $ {DATA_DIR} H1hESC / https://www.encodeproject.org/files/ENCFF546TLK/@@download ENCFF546TLK.bam

然后我们子样品WGBS BAM数据文件,也就是说,我们要消除个体读取而不是个人论文认定考虑scBS-seq数据的缺失值的性质。这样做我们将运行samtools视图命令的次级样本随机线从BAM文件。通过这种方式,我们可以生成人为40 pseudo-single细胞通过保持只有0.5%的批量读取每一个细胞。

data_dir = "编码/ wgbs / GM12878 / SRR4235788。bam" out_dir="encode/wgbs/GM12878/subsampled/GM12878" for (( i=1; i <= 40; ++i )) do my_command="samtools view -s ${i}.005 -b $data_dir > ${out_dir}_${i}.bam" eval $my_command done

最后,我们运行bismark_methylation_extractor命令来获取每个覆盖的甲基化状态CpG fomr产生的BAM文件。下面的命令将导致的文件报道输出和bedGraph输出。

data_dir = "编码/ wgbs / GM12878 /子样品/”proc_dir =“编码/ wgbs / GM12878 /加工/”为((i = 1;我< = 40;+ + i))做my_command = " bismark_methylation_extractor——忽略2——全面merge_non_CpG——no_header多核4 - o proc_dir美元——gzip bedGraph $ {data_dir} GM12878_ $ {}。bam“eval my_command美元

5.4大部分rrb编码

子样品的分析编码rrb数据再次进行批量GM12878 H1-hESC细胞线。我们可以下载原始fastq从文件。

http://genome.ucsc.edu/cgi-bin/hgFileUi?db=hg19&g=wgEncodeHaibMethylRrbs

和搜索GM12878或H1-hESC和下载fastq文件仅为第二复制。

接下来,我们运行俾斯麦。第一次运行bismark_genome_preparation命令创建一个基因组索引hg19。

bismark_genome_preparation hg19 /

之后,我们运行俾斯麦命令将创建对齐文件bam格式。

# = = = = = = = = = = = = = = = = = # 3。运行俾斯麦俾斯麦,基因组hg19 /编码/ wgEncodeHaibMethylRrbsGm12878HaibRawDataRep2.fastq。广州俾斯麦,基因组hg19 /编码/ wgEncodeHaibMethylRrbsH1hescHaibRawDataRep2.fastq.gz

在这一步中,我们遵循相同的过程大部分编码WGBS数据上面。

6会话信息

这个描述是使用:

sessionInfo ()

# # R版本3.6.1(2019-07-05)# #平台:x86_64-pc-linux-gnu(64位)# #下运行:Ubuntu 18.04.3 LTS # # # #矩阵产品:默认# #布拉斯特区:/home/biocbuild/bbs - 3.10 - bioc / R / lib / libRblas。所以# # LAPACK: /home/biocbuild/bbs - 3.10 - bioc / R / lib / libRlapack。# # # #语言环境:# # [1]LC_CTYPE = en_US。utf - 8 LC_NUMERIC = C # #[3]而= en_US。utf - 8 LC_COLLATE = C # # [5] LC_MONETARY = en_US。utf - 8 LC_MESSAGES = en_US。utf - 8 # # [7] LC_PAPER = en_US。utf - 8 LC_NAME = C # # [9] LC_ADDRESS C = C LC_TELEPHONE = # # [11] LC_MEASUREMENT = en_US。utf - 8 LC_IDENTIFICATION = C附加基本包:# # # # # #[1]统计图形grDevices跑龙套数据集方法基础# # # #其他附加包:# # [1]knitr_1.25 BiocStyle_2.14.0 # # # #通过加载一个名称空间(而不是附加):# # [1]BiocManager_1.30.9 compiler_3.6.1 magrittr_1.5 # # [4] bookdown_0.14 htmltools_0.4.0 tools_3.6.1 # # [7] yaml_2.2.0 Rcpp_1.0.2 stringi_1.4.3 # # [10] rmarkdown_1.16 stringr_1.4.0 digest_0.6.22 # # [13] xfun_0.10 rlang_0.4.1 evaluate_0.14

7参考书目

[1]Kapourani, c。& Sanguinetti, g (2018)。梅利莎:贝叶斯聚类和单细胞methylomes的污名。bioRxiv,312025,DOI:https://doi.org/10.1101/312025

[2]Kapourani, c。& Sanguinetti, g (2016)。高阶集群和预测外遗传性研究甲基化特性。生物信息学32 (17)、i405-i412 DOI:https://doi.org/10.1093/bioinformatics/btw432

[3]Kapourani c a & Sanguinetti g (2018)。BPRMeth:一个灵活的Bioconductor包造型甲基化配置文件。生物信息学DOI:https://doi.org/10.1093/bioinformatics/bty129

[4]克鲁格,F。&安德鲁斯,s . r . (2011)。俾斯麦:灵活的调整器和甲基化Bisulfite-Seq应用程序的调用者。生物信息学27日(11),1571 - 1572。

[5]史默伍德,美国。李,h·J。,Angermueller C。,克鲁格F。萨德,H。,泥炭J。,安德鲁斯s R。Stegle S。,Reik W。,凯尔西g (2014)。亚硫酸氢单细胞全基因组测序来评估表观遗传异质性。自然方法11 (8):817。

[6]Angermueller C。克拉克,中华民国李,H.J.麦考利,智能卡腾,M.J.,胡锦涛,T.X.克鲁格,F。斯莫尔伍德,S.A.桥,C.P.g, t和凯尔西沃特(2016)。平行单细胞测序转录和表观遗传异质性的链接。自然方法13 (3)p.229。

8确认

这个包是爱丁堡大学的学校的信息,与圭多Sanguinetti的支持。

这项研究的部分支持由EPSRC博士训练中心的科学数据,由英国工程和物理科学研究委员会(格兰特EP / L016427/1)和爱丁堡大学的。

过程和过滤scBS-seq数据

2019-10-29

包

1安装

2介绍