YY1 ChIA-PET基序分析(单次调用)

Jennifer Hammelman, Konstantin Krismer

2021-07-12

set.seed(17)图书馆(spatzie)

这篇小插图描述了如何使用spatzie来识别其序列基序(描述其结合位点)在相互作用的增强子和启动子中共同富集的转录因子对。ChIA-PET(Fullwood and Ruan 2009), HiChIP(Mumbach et al. 2016)或高c(Lieberman-Aiden et al. 2009)是通常用于研究远程基因组相互作用的分子生物学分析,它们产生的数据一旦经过适当处理(BEDPE格式),就可以作为spatzie共富集分析的输入。

加载数据

在这里,我们使用基于ChIA-PET分析的BEDPE格式的相互作用数据。交互数据在BEDPE格式中是一个以制表符分隔的文件,其中每一行描述了两者之间的一次交互也就是说,基因组的两个区域可能彼此相距很远。

yy1_interactions_file是一个玩具BEDPE例子数据来自小鼠胚胎干细胞的ChIA-PET实验,靶向转录因子YY1。

motifs_file是一个玩具母题数据库。HOCOMOCO主题数据库(Kulakovskiy et al. 2018)是常用的,但任何motif文件兼容TFBSTools: readJASPARMatrix ()可以使用。

执行“extdata / yy1_interactions.bedpe.gz”包=“spatzie”)read.tablegzfile(yy1_interactions_file),头=真正的9月=\ t)执行“extdata / motifs_subset.txt.gz”包=“spatzie”)

运行spatzie增强子-启动子基序共富集分析

spatzie: find_ep_coenrichment ()识别增强子-启动子相互作用中共富集的基序对int_data_df并抛弃非启动子和增强子之间的相互作用。其次,使用锚点区域扫描motif命中spatzie: scan_motifs ().第三,在小于一定比例的交互作用中出现的motif被丢弃(spatzie: filter_motifs ()).第四,spatzie: anchor_pair_enrich ()识别共富集的基序对,即,基序A始终存在于与包含基序B的增强子相互作用的启动子中。

spatzie::find_ep_coenrichment(motifs_file int_data_dfmotifs_file_matrix_format =“件”genome_id =“mm9”cooccurrence_method =“数”)

有关更多资料,请参阅帮助页(? spatzie:: find_ep_coenrichment)和方格纸(引用(“spatzie”)).

结果

交互类型饼图

该图显示了过滤前的交互类型。

Motif共富集矩阵

热图显示了所有基序对的共富集。

块sc_compute_cosignance_count_save的图形"width=

YY1结合增强子和启动子位点,在小鼠干细胞中形成增强子-启动子相互作用(Weintraub et al. 2017).正如预期的那样,spatzie在统计上发现了YY1基元的显著共出现,表明了这种依赖性。

在解释spatzie结果时,请记住,motif数据库(如HOCOMOCO)通常包括具有高度相似dna结合基序的转录因子组(在本例中是YY1和ZF.5),并且假定一对转录因子结合位点的共同富集可能由另一对具有高度相似基序的转录因子结合位点来解释。

请注意,本插图中使用的图案和交互数据是仅用于演示目的的虚拟数据。

额外的信息

spatzie包的大部分功能也通过网站提供https://spatzie.mit.edu

关于spatzie的更详细的讨论,请看论文:

spatzie:一个R包,用于从增强子-启动子相互作用中识别显著的转录因子motif共富集
詹妮弗·哈梅尔曼,康斯坦丁·克里斯默,大卫·k·吉福德
中国生物工程学报,2022,gkac036;DOI:https://doi.org/10.1093/nar/gkac036

会话信息

sessionInfo()
## R版本4.1.0(2021-05-18)##平台:x86_64-w64-mingw32/x64(64位)##运行在:Windows 10 x64 (build 19042) ## ##矩阵产品:默认## ## locale: ## [1] LC_COLLATE=English_United States.1252 LC_CTYPE=English_United States.1252 ## [4] LC_NUMERIC=C LC_TIME=English_United States.1252 ## ##附加的基本包:## [1]stats4并行统计图形grDevices utils datasets methods base ## ##其他附加包:BSgenome.Mmusculus.UCSC.mm9_1.4.0 BSgenome_1.60.0 rtracklayer_1.52 0 ## [4] Biostrings_2.60.1 XVector_0.32.0 GenomicRanges_1.44.0 ## [7] GenomeInfoDb_1.28.1 IRanges_2.26.0 S4Vectors_0.30.0 ## [10] BiocGenerics_0.38.0 spatzie_0.99.6 usethis_2.0.1 ## ##通过命名空间加载(并且没有附加):## [4] biovizBase_1.40.0 htmlTable_2.2.1 base64enc_0.1-3 # [7] fs_1.5.0 dichromat_2.0-0 rstudioapi_0.13 ## [10] farver_2.1.0 bit64_4.0.5 AnnotationDbi_1.54.1 ## [13] fansi_0.5.0 xml2_1.3.2 splines_4.1.0 ## [19] Formula_1.2-4 Rsamtools_2.8.0 seqLogo_1.58.0 ## [22] annotate_1.70.0 cluster_2.1.2去。db_3.13.0 ## [28] pheatmap_1.0.12 readr_1.4.0[37] htmltools_0.5.1.1 prettyunits_1.1.1 tools_4.1.0 ## [40] igraph_1.2.6 gtable_0.3.0 glue_1.4.2 ## [43] TFMPvalue_0.0.8 GenomeInfoDbData_1.2.6 reshape2_1.4.4 ## [46] dplyr_1.0.7 rappdirs_0.3.3 Rcpp_1.0.7 ## [49] txdb . mmusculus . ucc .mm9. knowngene_3 .2.2 Biobase_2.52.0 vctrs_0.3.8 ## [52] xfun_0.24 CNEr_1.28.0 string_1 .4.0 ## [55] lifecycle_1.0.0 ensembldb_2.16.2[61] [64] VariantAnnotation_1.38.0 ProtGenerics_1.24.0 genome interactions_1.26.0 ## [67] hms_1.1.0 MatrixGenerics_1.4.0 SummarizedExperiment_1.22.0 ## [70] AnnotationFilter_1.16.0 RColorBrewer_1.1-2 yaml_2.2.1 ## [73] curl_4.3.2 memoise_2.0.0 gridExtra_2.3 ## [76] ggplot2_3.3.5 biomaRt_2.48.2 rpart_1 .1-15 ## [79] latticeExtra_0.6-29 stringi_1.6.2 RSQLite_2.2.7 ## [82]highr_0.9 BiocIO_1.2.0 checkmate_2.0.0 ## [85] GenomicFeatures_1.44.0 caTools_1.18.2 filelock_1.0.2 ## [88] BiocParallel_1.26.1 rlang_0.4.11 pkgconfig_2.0.3 ## [94] matrixStats_0.59.0 bitops_1.0-7 evaluate_0.14 ## [94] pracma_2.3.3 lattice_0.20-44 purrr_0.3.4 ## [97] labeling_0.4.2 htmlwidgets_1.5.3 GenomicAlignments_1.28.0 ## [100] bit_4.0.4 tidyselect_1.1.1 plyr_1.8.6 ## [103] magrittr_2.0.1 R6_2.5.0 generics_0.1.0 ## [106] Hmisc_4.5-0 DelayedArray_0.18.0 DBI_1.1.1 ## [109] pillar_1.6.1[112] KEGGREST_1.32.0 RCurl_1.98-1.3 nnet_7.3-16 ## [115] tibble_3.1.2 crayon_1.4.1 utf8_1.2.1 ## [118] BiocFileCache_2.0.0 rmarkdown_2.9 jpeg_0.1-8.1 ## [121] progress_1.2.2 TFBSTools_1.30.0 grid_4.1.0 ## [124] data.table_1.14.0 blob_1.2.1 digest_0.6.27 ## [127] xtable_1.8-4 r.l utis_2.10.1 munsell_0.5.0 ## [130] dirichlet多omial_1.34.0 motifmatchr_1.14.0 Gviz_1.36.2

参考文献

富尔伍德,阮玉玉,2009。“基于chip的远程染色质相互作用识别方法。”j .细胞。物化学。107(1): 30-39。

库拉科夫斯基,伊万·V,伊利亚·E·沃龙佐夫,伊万·S·叶夫申,鲁斯兰·N·沙里波夫,真主安拉·D·费多洛娃,尤金·I·鲁姆斯基,尤利娅·A·梅德韦杰娃,等。2018。“HOCOMOCO:通过大规模ChIP-Seq分析,获得人类和小鼠转录因子结合模型的完整集合。”核酸研究46 (d1): d252-d259。https://doi.org/10.1093/nar/gkx1106

Lieberman-Aiden, E., N. L. van Berkum, L. Williams, M. Imakaev, T. Ragoczy, A. Telling, I. Amit等,2009。“对远距离相互作用的全面测绘揭示了人类基因组的折叠原理。”科学326(5950): 289-93。

孟巴克,a.j.鲁宾,r.a.弗林,戴C., P. A.哈瓦里,W. J.格林利夫,张海宇。2016。“HiChIP:蛋白质定向基因组结构的高效和敏感分析。”Nat方法。13(11): 919-22。

Weintraub, Abraham S, Charles H Li, Alicia V Zamudio,真主安拉A Sigova, Nancy M Hannett, Daniel S Day, Brian J Abraham, Malkiel A Cohen, benhnam Nabet, Dennis L Buckley. 2017。“YY1是增强子-启动子循环的结构调节器。”细胞171(7): 1573-88。