介绍

基因组生物学关注的中心是提高对基因转录的理解。简而言之,转录因子(TFs)与DNA结合蛋白质,通常在基因的启动子区域。TFs基因表达变化的作用是极大的兴趣。进展破译遗传和表观遗传过程影响TF丰度和功能将在澄清和解释基因表达变化基本模式及其对表型的影响。识别功能绑定TFs的困难,和机会使用TF绑定信息在系统生物学的上下文中,进行了综述兰伯特et al。(2018)Weirauch et al。(2014)

本文描述了一个R / Bioconductor包名为TFutils组装各种资源旨在澄清和统一的方法来处理生物信息学分析TF概念。本文中描述的计算可以进行Bioconductor 3.8版。这个包可以安装

#使用install.packages (“BiocManager”)如果没有可用的库(BiocManager)安装(“TFutils”)

在下一节中,我们描述了TFs的列举和分类的基本概念,列举特遣部队的目标,代表全基因组量化TF绑定关联。这是紧随其后的是评估的关键数据结构和函数提供的包,和癌症信息学一个例子。

本文并不直接处理序列的操作或解释。极好的Bioconductor包,综合许多方法这些任务universalmotif

转录因子生物信息学的基本概念

列举转录因子

给定主题的重要性,也就不足为奇了大量的生物信息学研究小组发表了目录的转录因子以及元数据的功能。标准命名TFs尚未建立。基因符号、图案序列和position-weight矩阵目录条目都被用作TF标识符。

在TFutils我们收集的信息从四个广泛使用的资源,特别关注人类TFs:基因本体论(去,ashburn et al。(2000),在这去:0003700是分子标记函数概念”DNA结合转录因子活动”),CISBP (Weirauch et al。(2014)),HOCOMOCO (Kulakovskiy et al。(2018)),“c3 TFT(转录因子目标)”签名组MSigDb (萨勃拉曼尼亚et al。(2005))。图@ref(图:lkupset)描述了这些目录的大小,测量使用项独特HGNC基因符号。去使用Bioconductor的枚举org.Hs.eg.db包找到直接关联去:0003700HGNC符号。枚举MSigDb启发式,包括解析基因为精确或关闭匹配设置标识符用于MSigDb HGNC符号。CISBP和HOCOMOCO相关联的web服务器提供轻松解析表格目录。

大小的TF目录和TFs基于HGNC符号的十字路口。

大小的TF目录和TFs基于HGNC符号的十字路口。

转录因子的分类

所指出的Weirauch et al。(2014)的解释功能和DNA序列的进化是依赖于分析sequence-specific DNA结合域。这些领域是动态和特异性(格茨et al。(2013))。根据功能分类TFs增加绑定域是一个持续的过程的错综复杂。图@ref(图:TFclass)显示摘录的特遣部队类型层次结构相关的条款来源于(左边)和去TFclass(Wingender et al。(2018))。之间存在分歧的枚举TFs基于去图@ref所示(图:lkupset)和1919年的朋友,后者包括更广泛的受体的活动的集合。

截图的朋友和摘录TFClass层次结构。

截图的朋友和摘录TFClass层次结构。

表@ref(选项卡:classtab)提供的例子经常遇到TF CISBP和HOCOMOCO目录分类。的数值组件HOCOMOCO类对应于TFClass亚科(Wingender et al。(2018))。

(#标签:classtab)最常代表CISBP和HOCOMOCO TF类。条目列数控(Nh)数量的不同的TFs注释类列CISBP (HOCOMOCO)分别。条目下令从上到下发生的频率。之间没有实质性的对应条目在给定的行。协调类的术语已经超出了本文的范围。
CISBP 数控 HOCOMOCO Nh
乙炔ZF 655年 超过3邻锌指因素{2.3.3} 106年
Homeodomain 199年 HOX-related因素{3.1.1} 41
bHLH 104年 NK-related因素{3.1.2} 36
bZIP 66年 Paired-related高清因素{3.1.3} 35
未知的 49 因素与多个分散的锌指{2.3.4} 30.
Forkhead 48 Forkhead框(福克斯)因素{3.3.1} 27
48 Ets-related因素{3.5.2} 25
核受体 46 Three-zinc手指Krueppel-related因素{2.3.1} 20.
Myb /桑特 30. POU域因素{3.1.10} 18
美国教育考试服务中心 27 Tal-related因素{1.2.3} 18

列举特遣部队的目标

广泛的研究所MSigDb (萨勃拉曼尼亚et al。(2005))包括一组基因集合用于编目特遣部队的目标。我们使用BioconductorGSEABase包导入和序列化格林尼治时间这个系列的代表。

TFutils: tftColl
# # GeneSetCollection # #名称:AAANWWTGC_UNKNOWN AAAYRNCTG_UNKNOWN,……GCCATNTTG_YY1_Q6(615) # #惟一标识符:4208年,481年……56903(12774)# #类型集合:# # geneIdType: EntrezIdentifier (1) # # collectionType: NullCollection (1)

名字的TFs目标集组装以系统的方式进行编码,用下划线分隔子字符串描述主题,基因,和版本。一些特点命名的MSigDb标签可以观察到:

grep (“NFK”名称(TFutils:: tftColl)值= TRUE)
# # [1]“NFKAPPAB65_01”“NFKAPPAB_01”“NFKB_Q6”# # [4]“NFKB_C”“NFKB_Q6_01”“GGGNNTTTCC_NFKB_Q6_01”

需要人工管理来提高精度,MSigDb TF目标集可以与特定的TFs或图案。

定量预测的TF约束力的亲和力

在本小节,我们假定的结合位点的地址表示。首先我们介绍如何代表序列关联这些措施和结合位点的位置。然后我们讨论使用细胞类型特异的结合位点枚举ChIP-seq实验的结果。

亲和力分数基于参考序列。MEME的FIMO算法套件(格兰特,贝利,高贵(2011))被用来评分689年人类参考基因组TF亲和力图案基因相关联矩阵。提供了完整的细节Sonawane et al。(2017)。16 (16)tabix-indexed床文件提出的AWS S3 bucket出于演示目的。

(fimo16) fimo16库(GenomicFiles)数据
与0 # # GenomicFiles对象范围和16个文件:# #文件:M0635_1.02sort.bed。广州,M3433_1.02sort.bed。广州,……,M6159_1.02sort.bed。广州,M6497_1.02sort.bed。广州# #细节:使用文件(),rowRanges (), colData (),…
头(colData (fimo16))
# # DataFrame 2 6行和列# # Mtag HGNC # # <人物> <人物> # # 1 M0635_1 DMRTC2 # # 2 M3433_1 HOXA3 # # 3 M3467_1 IRF1 # # 4 M3675_1 POU2F1 # # 5 M3698_1 TP53 # # 6 M3966_1 STAT1

我们收获的成绩在一个基因间隔(一定会感兴趣的fimo16rowRanges下面的赋值)使用reduceByFile。这个产量与每一个元素列表文件。每一个这样的元素的列表scanTabix结果,每一个查询范围。

库(BiocParallel)注册(SerialParam ()) # macosx重要吗?rowRanges (fimo16) =农庄(“chr17 IRanges (38.077 e6, 38.084 e6)) rr = GenomicFiles:: reduceByFile (fimo16地图=函数(r, f) scanTabix (f, param = r))

scanTabix向量的生成一个文件列表的文本字符串,我们解析data.table::从文件中读。结果表然后减少基因的位置和log10亲和力统计的假定值来自附近的那个位置。

asdf =函数(x)数据。表::从文件中读(paste0 (x,崩溃=“\ n”),头= FALSE) gg = lapp (rr,函数(x) {tmp = asdf (x [[1]] [[1]]) data.frame (loc = tmp $ V2,得分= log10 (tmp V7)美元)}),(我在1:长度(gg)) gg[[我]]$ = colData特遣部队(fimo16)[2]我

原来有太多不同的TFs单独显示的名字,所以我们标签的分数相关的特遣部队的名字家庭CISBP中定义。

matchcis =匹配(colData (fimo16) [2], cisbpTFcat [2]) famn = cisbpTFcat [matchcis,] Family_Name美元(我在1:长度(gg)) gg[[我]]$ tffam = famn[我]nn =。调用(rbind gg)

一个简单的显示预测TF亲和力ORMDL3基因附近提供在图@ref(无花果:完成)。

附近的TF绑定ORMDL3基因。点是-log10-transformed FIMO-based假定值彩色根据CISBP TF类注释。段底部的情节是根据UCSC ORMDL3基因的转录区域模型构建hg19。

附近的TF绑定ORMDL3基因。点是-log10-transformed FIMO-based假定值彩色根据CISBP TF类注释。段底部的情节是根据UCSC ORMDL3基因的转录区域模型构建hg19。

TF结合预测基于ChIP-seq编码的数据。编码项目提供BED-formatted ChIP-seq实验报告对许多细胞类型和dna结合因素的组合。TFutils包含一个表encode690出690个实验中对信息由91细胞系和161 TFs的结果已经被记录为农庄组织实例,可以获得的AnnotationHub包中。位置特异性结合位点和基因功能之间的关系可以调查。图给出了一个例子@ref(图:lkbi),它是建议在HepG2细胞,CEBPB展品的一种独特的模式绑定ORMDL3附近的。

结合CEBPB ORMDL3来自ChIP-seq附近的四个细胞系实验报告的编码。彩色矩形顶部区域确定为狭窄的约束力的山峰,箭在ORMDL3下半部分是外显子。箭共享一个共同的垂直位置是相同的记录的成员在75年运用版本编号。

结合CEBPB ORMDL3来自ChIP-seq附近的四个细胞系实验报告的编码。彩色矩形顶部区域确定为狭窄的约束力的山峰,箭在ORMDL3下半部分是外显子。箭共享一个共同的垂直位置是相同的记录的成员在75年运用版本编号。

总结

枚举的人类转录因子相比我们有不同的项目,提供两种形式的绑定域分类,并说明使用cloud-resident全基因组预测有约束力。在下一节中,我们审查选定的数据结构和方法的细节TFutils包中。

方法

实现

TFutils包旨在降低壁垒使用TF在人类基因组生物学研究的重要发现。TFutils作为传统的R包分配,提供和利用,Bioconductor软件生态系统。TFutils包括现成的参考数据,结合位点的可视化工具,工具,简化与GWAS研究综合使用TF的绑定信息。

数据资源

目录。两个参考资源收集成TFutils包data.frame实例。这些都是cisbpTFcat(CISBP: 7592 x 28),hocomoco.mono.sep2018(单核苷酸模型,完整的目录,769 x 9)。这些data.frames CISBP和HOCOMOCO目录的快照

AWS S3索引的床上。如上所述fimo16提供编程访问FIMO得分16 TFs,使用GenomicFiles协议。

带注释的参考编码ChIP-seq结果。encode690简化了编程访问TF:细胞系Bioconductor中可用的组合AnnotationHub

TF目标MsigDb枚举。从MSigDb c3-TFT (TF)目标子集作为GeneSetCollection实例中定义的GSEABase

说明性的GWAS记录。完整的EBI / EMBL GWAS目录是可用的gwascat包;为了方便起见,摘录重点17号染色体与TFutils提供gwascat_hg19_chr17

基础设施TFutils与组件交互

交互式枚举与GWAS特遣部队的目标。TFtargs函数运行的应用程序,允许选择TF的命名MSigDb c3 / TFT基因集合。提供的应用程序将搜索对象gwascat包的引用MAPPED_GENE字段相匹配的目标选择的特遣部队。图@ref(图:lktarapp)给出了一个例子。

TFtargs()截图。这个示例报告最近EBI GWAS目录点击17号染色体。

TFtargs()截图。这个示例报告最近EBI GWAS目录点击17号染色体。

TFCatalog S4类。参考目录TF生物学是结构化的TFCatalogS4类。两个基本组件管理目录的本地目录的TF标识符和HGNC基因符号通常用于特遣部队的名字。的TFCatalog类包含一个目录名称字段名称,和一个特征向量元素组成的编目TFs的本地标识符。
例如,CISBP使用T004843_1.02指与基因TFAP2B相关主题。有五个这样的图案,三个来自SELEX,一个从Transfac,一个从Hocomoco。

一个data.frame实例有一个名为“HGNC”可以包括任何义务列的字段集合提供关于TF在指定目录的元数据。这是我们如何构建和查看TFCatalog对象使用CISBP引用数据。

数据(cisbpTFcat) TFs_CISBP = TFCatalog (name = " CISBP.info nativeIds = cisbpTFcat [1], HGNCmap = cisbpTFcat) TFs_CISBP
# # TFutils TFCatalog CISBP.info # # 7592本地Ids实例,包括# # T004843_1.02……T153733_1.02 # # 1551独特的HGNC标签,包括# # TFAP2B TFAP2B……ZNF10 ZNF350

操作:用例

在本节中,我们考虑在遗传流行病学应用程序的工具。首先我们寻找可能的TFs港口相关变异特征在EBI GWAS目录。然后我们展示如何枚举特征与目标相关的选定的特遣部队。

TFs直接GWAS的对于一个给定的特征。directHitsInCISBP接受一个字符串命名特点,并返回一个data.frame TFs标识为“映射基因”的特征,与他们的特遣部队“姓”。

库(dplyr)图书馆(magrittr)图书馆(gwascat)数据(ebicat37) directHitsInCISBP(“类风湿性关节炎”,ebicat37)
# #加入,= " HGNC "
# # 1 # # HGNC Family_Name ARID5B干旱/明亮的# # 7加工T-box # # 15 GATA3 GATA乙炔ZF # # # # 35 JAZF1 37 MECP2 MBD乙炔ZF # # 57 # # 45 MTF1 REL REL # # 65 STAT4 STAT # # 79 # # 82 IRF5 IRF涂画或沙子

特征映射到给定的特遣部队的目标基因

topTraitsOfTargets将收购的目标选择的TF,检查在这些基因在给定GWAS目录实例,并汇总最常报道的特征。

tt = topTraitsOfTargets (“MTF1”, TFutils:: tftColl, ebicat37)
# #重新映射标识符的输入GeneSetCollection象征……
# #做
头(tt)
# #疾病。特质MAPPED_GENE snp CHR_ID # # 1过敏性皮肤炎TNXB rs41268896 6 # # 2过敏性皮肤炎TNXB rs12153855 6 # # 3过敏性皮肤炎KIF3A rs2897442 5 # # 4注意缺陷多动障碍SEMA3A rs797820 7 # # 5注意缺陷多动障碍DNM1 rs2502731 9 # # 6注意缺陷多动障碍GPC6 rs7995215 13 # # CHR_POS 1 # # 32102292 # 32107027 # 2 # 3 # 132713335 # 83979723 # 4 # 5 # 128214278 # 6 # 93756253
表(tt [1])
特应性皮炎# # # # # # 3 # #注意缺陷多动障碍高度# # 3 # # # # 7 # #初潮(发病年龄)# # 4 # #风湿性关节炎与肥胖相关的特征# # 11 # # # # 3

讨论

来源和后果的DNA转录的变化是细胞生物学的基本问题,项目我们已经使用的编目转录因子是当前知识的界限。

值得注意的是这四个资源用于图@ref(图:lkupset)达成一致的名字只有119 TFs。这一事实CISBP区分TFs 475在任何其他来源不确定应该更好的理解。我们观察到AHRR TF地位的归属是基于其与AHR分享主题(见)。

图@ref(图:TFclass)和表@ref(选项卡:classtab)显示的分类TFs现在是相当复杂的。使用精确的术语TFClass系统感兴趣的标签TFs目前依赖协会提供的HOCOMOCO目录。

随着人口基因组和遗传流行病学研究生长在规模和范围,原则组织和优先位点与表型相关感兴趣的迫切需要。图@ref(图:lktarapp)表明,基因座与表型相关的肾功能,肺功能,并通过这一事实可能引发水平统一GWAS支安打与基因识别为目标的VDR(维生素D受体)。这个例子中有限的注意力达到17号染色体上;的TFtargs工具允许探索phenotype-locus-gene-TF关联。我们希望收集到的工具和资源在TFutils将促进以证据为基础的机械系统的发展在人类疾病情况下转录调控网络模型,从而导致个性化基因组医学的发展。

确认

支持这个软件的开发是由国家卫生研究院的基金提供U01 CA214846(凯里,π)U24 CA180996(摩根,π),陈扎克伯格倡议DAF) 2018 - 183436(凯里,π)R01 NHLBI HL118455(雷比π)。

ashburn, M。c . a球,j·a·布莱克,d . Botstein h·巴特勒,j . m .樱桃,a·p·戴维斯,等。2000。“基因本体:生物学的统一的工具。基因本体论财团。”自然遗传学25 (1):25 - 29。https://doi.org/10.1038/75556

格茨,杰森,丹尼尔·萨维奇,凯瑟琳·e·瓦利·e·克里斯托弗·帕特里奇亚莉克希亚萨菲,Preti Jain,格雷戈里·m·库珀(Timothy大肠Reddy,格雷戈里·e·克劳福德和理查德·m·迈尔斯》2013。“不同的细胞类型特异的和共享的转录因子结合位点的性质。”分子细胞(1):52的技能。https://doi.org/10.1016/j.molcel.2013.08.037

格兰特(Charles E。蒂莫西·l·贝利,威廉·斯塔福德高贵。2011。“FIMO:扫描出现的一个给定的主题。”生物信息学(英国牛津大学)27 (7):1017 - 8。https://doi.org/10.1093/bioinformatics/btr064

Kulakovskiy,伊凡V。Ilya大肠沃龙佐夫,伊凡s Yevshin Ruslan n .沙里波夫真主安拉d . Fedorova尤金Rumynskiy,尤利娅•a . Medvedeva et al . 2018。“HOCOMOCO:对转录因子结合的完整集合模型对人类和老鼠通过大规模ChIP-Seq分析。”核酸的研究46 (D1)。牛津大学出版社:D252-D259。https://doi.org/10.1093/nar/gkx1106

兰伯特,撒母耳。,Arttu Jolma,劳拉·f·Campitelli前任“老板”Pratyush k . Das沂蒙阴,国王Albu, Xiaoting陈总裁Taipale,蒂莫西·r·休斯和马修·t·Weirauch》2018。“人类转录因子”。细胞172(4)。爱思唯尔有限公司:650 - 65。https://doi.org/10.1016/j.cell.2018.01.029

Abhijeet Rajendra Sonawane,约翰•Platig莫德Fagny,秋易陈,约瑟夫·保尔森纳撒尼尔·卡米拉米兰达Lopes-Ramos,黎明丽莎效用,金伯利玻璃和约翰•Quackenbush Marieke莉迪亚Kuijjer。2017。“理解组织基因调控。”细胞的报道(4)ElsevierCompany。: 1077 - 88。https://doi.org/10.1016/j.celrep.2017.10.001

萨勃拉曼尼亚,阿拉,巴勃罗Tamayo,来自k .而萨彦岭穆克吉,本杰明·l·艾伯特迈克尔·a·吉列阿曼达Paulovich,等。2005。“基因集富集分析:以知识为基础的方法解释全基因组表达谱。”美国国家科学院院刊》上102 (43)。国家科学院:15545 - 50。https://doi.org/10.1073/pnas.0506580102

Weirauch,马修·T。杨的盟友,国王Albu Atina g .象牙海岸Alejandro Montenegro-Montero,菲利普Drewe,哈米德s Najafabadi et al . 2014。“决心和推理的真核转录因子序列特异性。”细胞158 (6):1431 - 43。https://doi.org/10.1016/j.cell.2014.08.009

Torsten Schoeps Wingender,埃德加,马丁•Haubrock Mathias Krull,尤尔根•Donitz。2018年。“TFClass:扩大人类转录因子的分类他们的哺乳动物直接同源。”核酸的研究46 (D1): D343-D347。https://doi.org/10.1093/nar/gkx987