TADs表观遗传信号与基因的相关性

康斯坦丁·Okonechnikov1

1德国癌症研究中心(DKFZ)，德国海德堡

2022年11月1日

摘要

InTAD包的重点是检测表达基因和选择的表观基因组信号(即增强子)之间的相关性，这些信号位于相同的拓扑相关域(TADs)或通过染色质环连接。对于第一个任务，已知的公开可用的TADs的坐标可以被使用，因为它们在细胞类型之间的稳定性。此外，利用HiC技术检测新的TADs或直接环可增强特异性。对于TADs的使用，分析程序从收集位于同一TAD内的信号和基因开始。然后对TAD中的组合组进行分析，以检测它们之间的相关性。对于HiC环的使用，从寻找基因和目标信号之间的联系开始。随后，以与TADs类似的方式计算每个信号-基因对的相关性。可进一步控制各种参数。例如，基因表达滤波器、相关方法(Pearson、Spearman)、统计极限(q值计算)等。与TADs的联系也可以扩展到与TAD之外最接近的基因的相关性。 Multiple analysis steps include generation of special plots for results visualization.

内容

1简介
2主要数据分析使用TADs
3.染色质环的整合
4可视化
5会话信息
6参考文献

1简介

InTAD分析的重点是组合所有输入数据集的生成对象的处理。需要输入的数据如下:

表观遗传信号数据框架，例如增强子及其GRanges格式的坐标
基因表达计数数据。帧连同GRanges格式的基因坐标
TAD与GRanges或环路数据。帧，例如从HiC技术应用的结果

进一步解释了执行分析程序的例子是基于H3K27ac数据，反映了手稿中描述的成神经管细胞瘤脑肿瘤增强子的活性林志勇，s.s erkek等，自然，2016。

该数据集包括从H3K27ac ChIP-seq数据中获得的标准化增强子信号和来自25个成神经管细胞瘤样本的RNA-seq基因表达RPKM计数。测试子集是从15号染色体内的一个选定区域提取的。此外，还提供了增强子和基因的坐标以及特定的样本注释。

分析从准备和加载数据开始。下面是集成输入测试数据的概述，可以作为描述支持的输入格式的有用示例:

#规范化增强器信号表enhSel[1:3,1:3]

## chr15:25682177-25685608 4.3015286 5.0409281 5.8519724 ## chr15:25709081-25711634 0.5399542 -0.1572336 -0.6773354

#增强信号基因组坐标as.data.frame(enhSelGR[1:3])

## seqnames开始结束宽度绞盘## 1 chr15 25661165 25662833 1669 * ## 2 chr15 25682177 25685608 3432 * ## 3 chr15 25709081 25711634 2554 *

#基因表达规范化计数rpkmCountsSel[1:3,1:3]

## ensg00000215567.4 0 0.000000 0 ## ensg00000201241.1 0 0.000000 0 ## ensg00000258463.1 0 4.183154 0

#基因坐标as.data.frame(txsSel[1:3])

## seqnames start end width strand gene_id gene_name ## 1 chr15 20083769 20093074 9306 + ENSG00000215567.4 RP11-79C23.1 ## 2 chr15 20088867 20088969 103 + ENSG00000201241.1 RNU6-978P ## 3 chr15 20104587 20104812 226 + ENSG00000258463.1 RP11-173D3.3 ## gene_type ## 1假基因## 2 snRNA ## 3假基因

#额外的示例信息data.frame head(mbAnnData)

子组年龄性别组织学M.分期MB176 WNT 9 F经典M0 ## MB95 Group3 M经典M0 ## MB40 Group4 3 M经典M0 ## MB37 SHH 1 F结缔组织M0 ## MB38 Group4 6 M结缔组织M0 ## MB28 SHH 1 M结缔组织M0

重要的是，对输入数据集有特定的要求。样本名称应在信号和基因表达数据集中匹配。

summary(colnames(rpkmCountsSel) == colnames(enhSel))

##模式TRUE ##逻辑

接下来，应该为每个信号以及每个基因提供基因组区域。

#比较输入表长度(enhSelGR) == nrow(enhSel)

##[1]真

反映基因坐标的基因组区域必须包括“gene_id”而且“gene_name”马克。这些是典型的GTF格式标记。再多一分“gene_type”也可用于基因表达矩阵的筛选。

的生成过程中检查所有的需求InTADSig对象。这个对象的主要部分是MultiAssayExperiment结合信号和基因表达的子集。还可以包括关于样本的特定注释信息，以便进一步控制和可视化。在所提供的成神经管细胞瘤样本示例中，注释包含肿瘤亚群、年龄、性别等各个方面。

inTadSig <- newSigInTAD(enhSel, enhSelGR, rpkmCountsSel, txsSel,mbAnnData)

为25个样本创建信号和基因对象

创建的对象包含MultiAssayExperiment，包括信号和基因表达数据。

inTadSig

## S4 InTADSig对象## Num samples: 25 ## Num signals: 116 ## Num genes: 2080

在主对象生成过程中，还可以使用特殊选项来激活基于R多线程库的并行计算，并对基因表达进行log2调整。生成的数据子集可以使用对象上的特定调用函数来访问。信号或exprs．

值得注意的是，还可以使用函数从表示输入数据的文本文件中加载主对象loadSigInTAD．有关此函数的详细信息，请参阅该函数的文档。

2主要数据分析使用TADs

输入基因表达计数矩阵的使用假设过滤非表达或低表达基因。然而，如果在开始InTAD分析之前没有对这些计数进行过滤，则有可能使用功能来调整基因表达限制filterGeneExpr．该函数提供了控制最小基因表达和类型的参数。此外，还有一个特殊的选项来计算基于使用的基因表达分布mclust以找到合适的最小基因表达包切极限。下面是如何使用这个过程的例子:

# filter基因表达inTadSig <- filterGeneExpr(inTadSig, checkExprDistr = TRUE)

初步结果:2080个基因

基因表达切割值:1.7942749231013

筛选结果:671个基因

分析从TADs内部信号和基因的组合开始。由于已知TADs在各种细胞类型中都是稳定的，因此使用HiC技术从IMR90细胞中获得的已知TADs是可能的(Dixon等，2012)．人IMR90 TADs区域对象集成到包中。

# IMR90 hg19 TADs头(tadGR)

与6 # #农庄对象范围和0元数据列:链# # # # seqnames范围< Rle > < IRanges > < Rle > # # chr1:770137 - 1250137 chr1 770137 - 1250137 * # # chr1:1250137 - 1850140 chr1 1850140 - 1850140 * # # chr1:1850140 - 1850140 chr1 1850140 - 2330140 * # # chr1:2330140 - 3650140 chr1 3650140 - 3650140 * # # chr1:4660140 - 3650140 chr1 3650140 - 6077413 * # # chr1:6077413 - 6277413 chr1 6277413 - 6277413  * ## ------- ## seqinfo: 23从一个未指明的基因组序列;没有seqlengths

然而，由于差异实际上是在TAD调用方法之间观察到的(即在详细的审查中由Rola Dali和Mathieu Blanchette, NAR 2017)，新得到的TADs也可用于分析。所需格式:GRanges对象。

TADs中基因和信号的组成是利用函数进行的combineInTAD这有几个选择。默认情况下，它通过最大重叠来标记属于TAD的信号，并通过将它们连接到最近的TAD来考虑不重叠TADs的基因。这可能是一种敏感的策略，因为由于输入HiC数据的限制和现有TAD调用方法的差异，一些基因组区域可能会被遗漏。

inTadSig <- combineInTAD(inTadSig, tadGR)

在TADs中结合768个信号基因对

最后一步是相关性分析。该函数有多种选择，即相关方法、q值计算控制证据强度和连接比例的可视化。最后一个选项允许显示基因和信号调控的差异。

par(mfrow=c(1,2)) #选项组合图中的图#执行相关性分析corData <- findCorrelation(inTadSig,plot. par)比例= TRUE)

结果data.frame有一个特殊的格式。它包括每个信号、TAD、基因和相关信息。

头(corData, 5)

# # 1 # # peakid泰德基因chr15:25748892 - 25750259 chr15:25728907 27128907 ENSG00000114062.13 # # 2 chr15:25748892 - 25750259 chr15:25728907 - 27128907 ENSG00000261529.1 # # 3 chr15:25748892 - 25750259 chr15:25728907 27128907 ENSG00000206190.7 # # 4 chr15:25748892 - 25750259 chr15:25728907 - 27128907 ENSG00000166206.9 # # 5 chr15:25748892 - 25750259 chr15:25728907 - 25750259 ENSG00000235518.2 # #名软木pvalue eucDist corRank # # 1 UBE3A 0.37789578 0.06253400 25.748716 3 # # 2 rp13 - 487 p22 . 1 0.21115682 - 0.310957437.360294 5 ## 3 atp10a -0.03977321 0.85028161 7.703550 6 ## 4 gabrb3 0.44145787 0.02716195 21.972593 1 ## 5 ac011196.3 0.36894539 0.06953544 7.381633 4

可以通过调整p值和相关效应极限(即p-val < 0.01，仅为正相关)对结果数据进行进一步过滤。

3.染色质环的整合

另一种寻找基因和表观遗传信号之间联系的明确方法是使用直接染色质连接，即所谓的环。循环通常来自HiC数据，有一些知名的工具允许执行这一点(例如。FitHiC或打嗝)．

来自IGV的染色质环可视化示例显示成神经管细胞瘤肿瘤特异性增强子与基因的连接。这些回路来自于IMR90 HiC数据。

从版本1.9.1开始的InTAD还允许使用HiC循环进行分析。执行此任务的主要功能是combineWithLoops而且findCorFromLoops．

为了演示这种方法，InTAD包含了一个派生自IMR90细胞．这个循环data.frame有一个特定的格式，其中前6列表示两个循环锚点的基因组区域:(start1 chr1 end1、chr2 start2, end2)：

loopsDfSel [1:4, 1:6)

## chr1 x1 x2 chr2 y1 y2 ## 1 chr15 100470000 100480000 chr15 100670000 100680000 ## 2 chr15 101170000 101180000 chr15 101170000 101180000 chr15 101800000 101810000 ## 4 chr15 101175000 101180000 chr15 101540000 101545000

加载回路应用于发现基因和信号之间的联系使用函数combineWithLoops．默认情况下，期望使用6列循环格式，但该函数也支持4列格式，其中循环锚只提供中间位置(如FitHiC输出):(middlePos1 chr1 chr2 middlePos2)．

然而，在这种情况下，循环片段长度也是必需的，并使用变量fragmentLength允许激活此格式。此外，其他参数(如转录起始位点宽度，环的延伸)可以控制以提高灵敏度。

结果，函数报告检测到多少连接被循环支持，并将它们保存在返回的InTAD对象中:

inTadSig <- combineWithLoops(inTadSig, loopsDfSel)

注意:假设为6列循环格式。

将1个信号基因对与环路结合

在这个特殊的例子中，基因和增强子之间只发现了一种联系。找出检测到的连接信号-基因对之间是否存在相关性fincCorFromLoops应用。它有一个类似于相应函数的选项列表findCorrelation有关TADs的使用(例如相关方法、调整后的p值):

loopEag <- findCorFromLoops(inTadSig,method = "spearman")

最终结果的格式也类似于表达TADs中基因和增强子之间的相关性。唯一的区别是支持已找到连接的循环包括在内:

loopEag

## 1 chr15:25748892-25750259 chr15:25750000-25760000 chr15:27110000-27120000 ##基因名称cor pvalue eucDist ## 1 ENSG00000186297.7 GABRA5 0.6123077 0.001430953 12.80297

一般来说，对环路的关注可以增加检测到的信号和基因之间连接的特异性，以便找到可能的远景目标进行进一步研究。但是，理想情况下，它应该应用于来自相同研究目标材料(例如相同肿瘤类型)的HiC数据，而其他来源的TADs由于其稳定性而可以使用。

4可视化

软件包提供分析后可视化功能:可以选择具体的信号和基因进行相关图生成。以下是经证实的髓母细胞瘤group3特异性增强子相关基因GABRA5与增强子位于相同的TAD中，但与该基因不接近:

#与GABRA5 cID相关的增强器示例<- "chr15:26372163-26398073" selCorData <- corData[corData$peakid == cID，] selCorData[selCorData$name == "GABRA5"，]

## peakid tad基因名## 430 chr15:26372163-26398073 chr15:25728907-27128907 ENSG00000186297.7 GABRA5 ## cor pvalue eucDist corRank ## 430 0.878531 7.724306e-09 10.92154

对于绘图生成，需要提供信号id和基因名称:

plotCorrelation(inTadSig, cID， "GABRA5"， xLabel = "RPKM基因expr log2"， yLabel = "H3K27ac富集log2"， colByPhenotype = "Subgroup")

# # ENSG00000186297.7

注意，在可视化中，也可以使用选项标记代表样本的颜色colByPhenotype根据所包含的样本注释信息生成主对象。在所提供的例子中，髓母细胞瘤亚群被标记出来。

还可以可视化感兴趣的特定基因组区域，以观察TADs的方差和影响，使用对从函数获得的结果数据起作用的特殊函数findCorrelation．得到的图提供了信号在x轴上的位置，基因在y轴上的位置。每个点反映了基于p值的相关强度:log10 (P-val)．研究中引入了这种可视化策略S. Waszak等人，细胞，2015主要研究人类细胞染色质结构。

默认情况下，只有检测到的带有信号的TAD是可视化的，但也可以使用特殊选项包括所有可用的TAD区域。下面是覆盖测试数据集中使用的整个15号染色体区域的示例图:

plotCorAcrossRef(inTadSig,corData, targetRegion = GRanges("chr15:25000000-28000000")， tads = tadGR)

该函数的另一个选项允许激活从0到1的正相关值的表示，而不是强度。

plotCorAcrossRef(inTadSig,corData, targetRegion = GRanges("chr15:25000000-28000000")， showCorVals = TRUE, tads = tadGR)

也可以通过忽略信号/基因位置，只关注通过调整对称性的相关值来关注连接。这是用于HiC接触数据可视化的典型方法，例如果汁盒．这可以通过使用相应的选项来激活:

plotCorAcrossRef(inTadSig,corData, targetRegion = GRanges("chr15:25000000-28000000")， showCorVals = TRUE, symmetric = TRUE, tads = tadGR)

这些可视化策略允许调查TADs的影响。

每个函数都可以通过标准R帮助获得额外的文档。

5会话信息

这是的输出sessionInfo ()在编译本文件的系统上:

## R版本4.2.1(2022-06-23)##平台:x86_64-pc-linux-gnu(64位)##运行在Ubuntu 20.04.5 LTS ## ##矩阵产品:默认## BLAS: /home/biocbuild/bbs-3.16-bioc/R/lib/libRblas。/home/biocbuild/bbs-3.16-bioc/R/lib/libRlapack。所以## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# # [3] LC_TIME=en_GB LC_COLLATE= c# # [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# # [9] LC_ADDRESS=C lc_phone = c# # [11] LC_MEASUREMENT=en_US。utf - 8 LC_IDENTIFICATION = C附加基本包:# # # # # # [1]stats4统计图形grDevices跑龙套数据集方法# # # # # #[8]基地其他附加包:# # [1]InTAD_1.18.0 MultiAssayExperiment_1.24.0 # # [3] SummarizedExperiment_1.28.0 Biobase_2.58.0 # # [5] MatrixGenerics_1.10.0 matrixStats_0.62.0 # # [7] GenomicRanges_1.50.0 GenomeInfoDb_1.34.0 # # [9] IRanges_2.32.0 S4Vectors_0.36.0 # # [11] BiocGenerics_0.44.0 BiocStyle_2.26.0 # # # #通过加载一个名称空间(而不是附加):## [1] bitops_1.0-7 tools_4.2.1 backports_1.4.1 ## [7] DBI_1.1.3 colorspace_2.0-3 tidyselect_1.2.0 ## [10] compiler_4.2.1 cli_3.4.1 DelayedArray_0.24.0 ## [13] labeling_0.4.2 rtracklayer_1.58.0 bookdown_0.29 ## [19] sass_0.4.2 scales_1.2.1 string_1 .4.1 ## [19] digest_0.6.30 Rsamtools_2.14.0 rmarkdown_2.17 ## [22] XVector_0.38.0 pkgconfig_2.0.3 htmltools_0.5.3 ## [25] fastmap_1.1.0 highr_0.9 rlang_1.0.6 ## [28] farver_2.1.1 jquerylib_0.1.4 BiocIO_1.8.0 ## #[40] Matrix_1.5-1 Rcpp_1.0.9 munsell_0.5.0 ## [43] fansi_1.0.3 abind_1.4-5 lifecycle_1.0.3 ## [46] stringi_1.7.8 yaml_2.3.6 carData_3.0-5 ## [49] zlibbioc_1.44.0 plyr_1.8.7 qvalue_2.30.0 ## [55] lattice_0.20-45 Biostrings_2.66.0 splines_4.2.1 ## [58] magick_2.7.3 knitr_1.40 pillar_1.8.1[61] ggpubr_0.4.0 rjson_0.2.21 ggsignif_0.6.4 ## [64] reshape2_1.4.4 codetools_0.2-18 XML_3.99-0.12 ## [67] glue_1.6.2 evaluate_0.17 BiocManager_1.30.19 ## [70] vctrs_0.5.0 gtable_0.3.1 purrr_0.3.5 ## [73] tidyr_1.2.1 assertthat_0.2.1 cachem_1.0.6 ## [76] ggplot2_3.3.6 xfun_0.34 BiocBaseUtils_1.0.0 ## [79] broom_1.0.1 restfulr_0.0.15 rstatix_0.7.0 ## [82] tibble_3.1.8 GenomicAlignments_1.34.0

6参考文献

达利，R.和布兰切特，M.， 2017。拓扑关联域预测工具的关键评估。核酸研究，45(6)，pp.2994-3005。

Dixon, j.r.， Selvaraj, S.， Yue, F.， Kim, A.， Li, Y.， Shen, Y.， Hu, M.， Liu, J.S.， Ren, B.， 2012。通过染色质相互作用分析确定的哺乳动物基因组的拓扑结构域。自然杂志，485(7398)，第376页。

林志勇，Erkek, S.， Tong, Y.， Yin, L.， Federation, a.j.， Zapatka, M.， Haldipur, P.， Kawauchi, D.， Risch, T.， Warnatz, H.J.和Worst, b.c.， 2016。活性成神经管细胞瘤增强剂揭示亚群特异性细胞来源。《自然》，530(7588)，第57页。

沃扎克，s.m.，德莱诺，O.， Gschwind, a.r.， Kilpinen, H.， Raghav, s.k.， Witwicki, r.m.， Orioli, A.， Wiederkehr, M.， Panousis, N.I.， Yurovsky, A.和Romano-Palumbo, L.， 2015。人类模块化染色质结构的群体变异和遗传控制。细胞,162 (5)