RITAN的一个特性是能够解释跨资源的错误发现率。然而,基因组之间的关系并不总是明显的。也就是说,两个资源可能各自有一个高度相似(如果不是完全相同的话)的术语。理想情况下,在进行分析之前,您可以从这些术语中选择一个来使用。函数geneset_overlap()通过识别有大量重叠的术语并合并它们来帮助完成这一过程。
#显示多种疾病-基因关系的共同基因比例。o < -geneset_overlap(geneset_list$DisGeNet)情节(密度(c(o (upper.tri(o)])),日志=“y”,ylim =c(1 e - 3,1 e3),主要=”,xlab =“部分共享基因”,ylab =的概率()”)
#显示疾病及其基因水平的重叠,当每种疾病有至少80%的重叠时。诊断接头(o) < - - - - - -NA#忽略自重叠我< -哪一个(o>0.8,加勒比海盗。印第安纳州=真正的)垫< -o (独特的(我1]),独特的(我2)))的热图(垫,坳=牧师(灰色的(seq(0,1,长度。了=15))),cexRow =.7,cexCol =0.7,利润=c(7,7) )
#显示疾病基因关系和GO-Slim术语定义之间的共同基因比例o < -geneset_overlap(geneset_list$DisGeNet, geneset_list$GO_slim_generic)o < -(阿,!(colnames(o)%, %c(“biological_process”,“molecular_function”,“cellular_component”)))#移除每个子本体的根情节(密度(c(o)),日志=“y”,主要=”,xlab =“部分共享基因”,ylab =的概率()”)
#显示疾病和术语有95%相同基因的关系热图我< -哪一个(o>0.95,加勒比海盗。印第安纳州=真正的)垫< -o (独特的(我1]),独特的(我2)))的热图(垫,坳=牧师(灰色的(seq(0,1,长度。了=15))),cexRow =.7,cexCol =0.7,利润=c(7,7) )
重叠的基因集本身可以提供很高的信息。例如,也许你对已知涉及负责染色体组织的基因的疾病很感兴趣。您可以结合RITAN中的可用资源来快速识别这个基因集的交集。
“棺木- siris综合征”“白血病,髓系”“白血病,巨核母细胞,唐氏综合征”“结直肠肿瘤,遗传性非息肉病”“恶性肿瘤乳腺”
因此,在一个地方拥有许多术语资源,比如日坛,有助于知识整合。
诸如此类的特征可以结合起来调查知识资源之间的关系和在进一步研究中使用的结果。
疾病和功能关系的结合(例如与细胞运动有关的疾病)可以结合起来形成一个新的基因集。然后可以在term_enrighment()中使用这个新的基因集来注释您自己的数据集。
## chr[1:20]“Kartagener综合征”“血栓栓塞”…
new_geneset < -相交(独特的(unlist(geneset_list$DisGeNet [d])),独特的(unlist(geneset_list$GO_slim_generic$cell_motility)))str(new_geneset)
# #杆(1:86)“CCDC40”“DNAH5”“DNAI1”“DRC1”“DYX1C1”“F2”“F7”“GAS6”…
#我们创建了一个名为resource_reduce的函数,以帮助用户专注于生成集资源的唯一部分。
## ##输入列表有604个术语/基因集。55个重叠0.80的项被合并成22个复合项。将返回包含571个术语的更新术语列表。
## ##输入列表有746个术语/基因集。326个重叠为0.95的项被合并为29个复合项。将返回更新后的包含449个术语的术语列表。
运行resource_reduce()后,新术语/基因集共享的基因的重叠部分小于min_overlap。如果min_overlap设置为一个高阈值,数据集内仍然会有很强的相关性,但冗余项将被合并。如果min_overlap设置为一个较低的阈值,结果项将在很大程度上是独立的,但很可能它们将是数量较少的非常大的项/基因集(许多合并)。
如果所使用的术语之间存在关系,则RITAN中使用的多重测试校正将过于保守。
严格程度取决于您的应用程序——如何注释和解释数据。