内容

1简介

JASPAR (http://jaspar.genereg.net)是一个开放访问的数据库,收录了六个分类组中多个物种的转录因子(TF)结合配置文件,存储为位置频率矩阵(PFMs)。在JASPAR的第8版中,CORE集合增加了245个新的PFMs(脊椎动物169个,植物42个,线虫17个,昆虫10个,真菌7个),并更新了157个PFMs(脊椎动物125个,植物28个,昆虫3个)。与之前的版本相比,这些新的概要文件扩展了18%。JASPAR 2020带来了一系列新颖的未经验证的tf绑定配置文件,我们的策展人在文献中没有找到正交的支持证据。这个集合有一个专门的web表单,可以让社区参与管理未经验证的tf绑定概要文件。

使用JASPAR2020数据包的最简单方法(Fornes et al. 2019)是通过TFBSTools包的接口(Tan and Lenhard 2016),它提供了从JASPAR数据库检索和操作数据的函数。这个小插图演示了如何使用这些函数。

库(JASPAR2020)库(TFBSTools)

2从JASPAR2020中按ID或名称检索矩阵

来自JASPAR的矩阵可以使用任意一种方法检索getMatrixByIDgetMatrixByName函数,分别从JASPAR中提供矩阵ID或矩阵名称。这些函数可以接受单个元素作为ID/name参数,也可以接受一个值向量。前一种情况返回aPFMatrix对象,而后一个返回PFMatrixList与多个PFMatrix对象。

##用户为参数ID指定一个矩阵ID pfm <- getMatrixByID(JASPAR2020, ID = "MA0139.1") ##函数返回一个PFMatrix对象pfm# >类对象PFMatrix #> ID: MA0139.1 #>名称:CTCF #>矩阵类:C2H2锌指因子#>链:+ #>标签:#> $alias #> [1] "-" #> #> $description #> [1] " ccctc -结合因子(锌指蛋白)"# > # > $家族# >[1]“超过3邻锌指因素”# > # > $ medline # >[1]“17512414”# > # > $ remap_tf_name # >[1]“CTCF”# > # > $符号# >[1]“CTCF”# > # > $ tax_group # >[1]“脊椎动物”# > # > $ tfbs_shape_id # >[1]“133”# > # > $类型# >[1]“ChIP-seq”# > # > $ unibind # >[1]“1”# # > >收藏美元# >[1]“核心”# > # > $物种# 9606 # > >“智人”# > # > $ acc # >[1]“P49711”# > # >背景:# > C G T # > 0.25 - 0.25 0.25 - 0.25 # >矩阵:# > [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] 56 # > 87 167 281 8 744 333 107 851 5 54 12 13 56 # > C 49 291 145 800 903 528 433 0 3 12 0 8 # 11 > G 21 76 414 449 0 65 334 48 32 903 566 504 890 775 # > T 36 459 187 134 2 91 11 324 18 3 9 341 8 71 # > [15] [16] [17] [18] [19] # # > C > 104 372 82 117 402 733 482 322 181 # > G 5 507 307 73 266 # > T 67 17 396 59

用户可以利用PFMatrix对象进行进一步的分析和可视化。中可用的函数绘制给定矩阵的序列标志的示例TFBSTools包中。

seqLogo (toICM (pfm))

##用户将多个矩阵ID赋给参数ID pfmList <- getMatrixByID(JASPAR2020, ID=c("MA0139.1", "MA1102.1")) ##函数返回PFMatrix对象pfmList #> PFMatrixList长度为2 #>名称(2):MA0139.1 MA1102.1 ## PFMatrixList可以被子集用于提取封闭的PFMatrix对象pfmList[[2]] #>类对象PFMatrix #> ID: MA1102.1 #>名称:CTCFL #>矩阵类:C2H2 zinc finger factors #> strand: + #>标签:# > $ centrality_logp # >[1]“-7211.51”# # > >家庭美元# >[1]“超过3邻锌指因素”# > # > $ medline # >[1]“26268681”# > # > $ remap_tf_name # >[1]“CTCFL”# > # > $源# >[1]“29126285”# > # > $ tax_group # >[1]“脊椎动物”# > # > $ tfbs_shape_id # >[1]“1”# > # > $类型# >[1]“ChIP-seq”# > # > $ unibind # >[1]“1”# # > >收藏美元# >[1]“核心”# > # > $物种# 9606 # > >“智人”# > # > $ acc # >[1]“Q8NI51”# > # >背景:# > C G T # > 0.25 - 0.25 0.25 - 0.25 # >矩阵:#> [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10] [,11] [,12] [,13] [,14] #> a 627 3344 909 499 8422 76 568 266 123 127 117 4022 714 1329 #> c 6915 1487 4650 6703 166 93 145 325 179 136 8625 730 3772 3392 #> g 860 2520 2898 535 152 8596 8016 8447 8380 37 3702 3448 1810 #> t 423 1474 368 1088 85 60 77 518 76 182 46 371 891 2294

getMatrixByName按名称检索矩阵。如果提供了多个矩阵名称,则函数返回PFMatrixList对象。

pfm <- getMatrixByName(JASPAR2020, name="Arnt") pfm# > PFMatrix类对象#> ID: MA0004.1 #>名称:arnt# >矩阵类:基本螺旋-环-螺旋因子(bHLH) #>链:+ #>标签:# > $别名# >[1]“HIF-1beta bHLHe2“# > # > $描述# >[1]“芳基碳氢化合物核转运蛋白受体”# # > >家庭美元# >[1]“不是域因素”# > # > $ medline # >[1]“7592839”# > # > $ remap_tf_name # >[1]“ARNT”# > # > $符号# >[1]“ARNT”# > # > $ tax_group # >[1]“脊椎动物”# > # > $ tfbs_shape_id # >[1]“十一”# > # > $类型# >[1]“SELEX”# > # > $ unibind # >[1]“1”# # > >收藏美元# >[1]“核心”# > # > $物种# 10090 # > >“亩骶”# > # > $ acc # >[1]“P53762”# > # >背景:#> A C G T # b> 0.25 0.25 0.25 0.25 # b>矩阵:# b> [,1] [,2] [,3] [,4] [,5] [,6] #> A 4 19 0 0 0 0 0 0 0 0 0 #> C 16 020 0 0 0 0 0 0 #> G 0 1 020 020 #> T 0 0 0 0 020 0 pfmList <- getMatrixByName(JASPAR2020, name= C ("Arnt", "Ahr::Arnt")) pfmList #> PFMatrixList长度为2 #>名称(2):Arnt Ahr::Arnt

3.过滤标准的使用

getMatrixSet函数获取所有匹配由命名参数定义的标准的矩阵,并返回PFMatrixList对象。

##选择在特定物种中发现的所有矩阵,并从SELEX ##实验opts <- list() opts[["species"]]] <- 9606 opts[["type"]] <- "SELEX" opts[["all_versions"]] <- TRUE PFMatrixList <- getMatrixSet(JASPAR2020, opts) PFMatrixList #>长度为48的PFMatrixList #>名称(48):MA0002.1 MA0003.1 MA0018.1 MA0025.1…MA0124.1 MA0130.1 MA0131.1 ##检索从SELEX实验构建的所有矩阵opts2 <- list() opts2[["type"]] <- "SELEX" PFMatrixList2 <- getMatrixSet(JASPAR2020, opts2) PFMatrixList2 #> PFMatrixList of length 82 #> names(82): MA0004.1 MA0006.1 MA0015.1 MA0016.1…Ma0588.1 ma0589.1 ma0590.1

关于TFBS矩阵分析的更多细节可以在TFBSTools地质编录。

4会话信息

这是的输出sessionInfo ()在编译本文件的系统上:

#> R version 4.0.0 alpha (2020-04-07 r78171) #>平台:x86_64-apple-darwin17.7.0(64位)#>运行在macOS High Sierra 10.13.6 #> #>矩阵产品:默认#> BLAS: /Users/ka36530_ca/R-stuff/bin/R-4-0/lib/libRblas。dblib #> LAPACK: /Users/ka36530_ca/R-stuff/bin/R-4-0/lib/libRlapack。dylib # > # >语言环境:# > [1]C / en_US.UTF-8 / en_US.UTF-8 / C / en_US.UTF-8 / en_US。UTF-8 # b> # b>附加基础包:#> [1]stats graphics grDevices utils datasets methods base #> #>其他附加包:#> [1]TFBSTools_1.27.0 JASPAR2020_0.99.10 BiocStyle_2.17.0 #> #>通过命名空间加载(且未附加):#> [1] httr_1.4.1 Biobase_2.49.0 #> [3] bit64_0.9-7 R.utils_2.9.2 #> [5] gtools_3.8.2 BiocManager_1.30.10 #> b[7] stats4_4.0.0 blob_1.2.1 #> [9] BSgenome_1.57.0 GenomeInfoDbData_1.2.3 #> [11] Rsamtools_2.5.1 yaml_2.2.1 #> [13] dirichletmultiomial_1.31.0 pillar_1.4.4 #> [15] RSQLite_2.2.0 lattice_0.20-41 #> [17] glue_1.4.1 digest_0.6.25 #> b[21] colorspace_1.4-1 R.oo_1.23.0 #> [25] plyr_1.8.6 XML_3.99-0.3 #> [27]> [37] tibble_3.0.1 keggrest_1 .3.1 #> [39] generics_0.0.2 IRanges_2.23.6 #> [41] ggplot2_3.3.1 ellipsis_0.3.1 #> [43] SummarizedExperiment_1.19.4 TFMPvalue_0.0.8 #> [45] BiocGenerics_0.35.2 magrittr_1. 1.5 #> [51] memoise_1.1.0 evaluate_0.14 #> [51] r.d entss3_1 .35.0 CNEr_1.25.0 #>[53] tools_4.0.0 hms_0.5.3 #> [55] formatR_1.7 lifecycle_0.2.0 #> b[59] S4Vectors_0.27.9 munsell_0.5.0 #> [61] DelayedArray_0.15.1 annotationdbi_1.1.1.0 #> [63] Biostrings_2.57.1 compiler_4.0.0 #> [65] GenomeInfoDb_1.25.0 caTools_1.18.0 #> [67] rlang_0.4.6 grid_4.0.0 #> [69] RCurl_1.98-1.2 bitops_1.0-6 # b> [71] rmarkdown_2.2 gtable_0.3.0 #> [75] R6_2.4.1 GenomicAlignments_1.25.1 #> [77] knitr_1.28 dplyr_1.0.0 #> [79]seqLogo_1.55.4 rtracklayer_1.49.2 #> [81] bit_1.1-15.2 readr_1.3.1 #> [83] stringi_1.4.6 parallel_4.0.0 #> [85] Rcpp_1.0.4.6 png_0.1-7 #> [87] vctrs_0.3.0 tidyselect_1.1.0 #> [89] xfun_0.14 .14

参考书目

“JASPAR 2020:转录因子结合谱开放获取数据库的更新。”核酸研究https://doi.org/10.1093/nar/gkz1001

谭,葛,鲍里斯·伦哈德,2016。FBSTools:用于转录因子结合位点分析的R/Bioconductor包。生物信息学32: 1555 - 6。