公共卫生是一个重要的生物和医学研究背后的推动力量。后基因时代的一个重大挑战是桥梁之间的差距基础生物学研究及其临床应用。最近的研究日益表明,许多看似不同的疾病有共同的分子机制。理解相似在早期诊断和疾病艾滋病新药开发。
正式的知识表示的基因-疾病协会为此要求。本体,如基因本体论(去),已经成功地应用于代表生物知识,采取了许多相关技术来提取信息。疾病本体(做)1开发创建一个一致的描述疾病的基因产物的观点,和支持功能基因组学在疾病至关重要。准确的疾病描述可以发现新的基因和疾病之间的关系,和新功能之前uncharacteried基因和等位基因。
与其他临床疾病相关的概念定义支持的词汇表,做的是组织为一个有向无环图,为疾病知识的定量计算奠定了基础。
在这里,我们提供了一个R
包剂量(2)分析之间的语义相似性条款和基因产品注释做条件。
四种方法确定两个术语的语义相似度信息内容的基础上提出了他们的共同祖先术语蕾斯尼克3江,4,林5和Schlicker6。王7提出了一个方法来衡量基于图结构的相似性。每一种方法都有自己的优势和弱点。剂量实现这些方法之间的语义相似度计算条款和基因产物。我们已经开发出另一个包GOSemSim8探索功能相似的角度来看,包括分子功能(MF)、生物过程(BP)和细胞组件(CC)。
对算法的细节,请参考的装饰图案GOSemSim。
在剂量,我们实现了doSim
计算语义相似度两个方面和两组做。
< - c (“DOID: 14095”,“DOID: 5844”,“DOID: 2044”,“DOID: 8432”,“DOID: 9146”,“DOID: 10588”,“DOID: 3209”,“DOID: 848”,“DOID: 3341”,“DOID: 252”) b < - c (“DOID: 9409”,“DOID: 2491”,“DOID: 4467”,“DOID: 3498”,“DOID: 11256”) doSim([1],[1],衡量=“王”)
# # 0.07142995 [1]
doSim([1],[1],衡量=“蕾斯尼克”)
# # [1]0
doSim([1],[1],衡量=“林”)
# # [1]0
< - doSim (a, b,衡量=“王”)
# # DOID: 9409 DOID: 2491 DOID: 4467 DOID: 3498 DOID: 11256 # # DOID: 14095 0.07142995 0.05714393 0.03676194 0.03676194 0.52749870 # # DOID: 5844 0.14897652 0.11564838 0.02801328 0.02801328 0.06134327 # # DOID: 2044 0.14897652 0.11564838 0.02801328 0.02801328 0.06134327 # # DOID: 8432 0.17347273 0.13877811 0.03676194 0.03676194 0.07142995 # # DOID: 9146 0.07142995 0.05714393 0.03676194 0.03676194 0.17347273 # # DOID: 10588 0.13240905 0.18401515 0.02208240 0.02208240 0.05452137 # # DOID: 3209 0.14897652 0.11564838 0.02801328 0.02801328 0.06134327 # # DOID: 848 0.14897652 0.11564838 0.02801328 0.02801328 0.06134327 # # DOID: 3341 0.13240905 0.09998997 0.02208240 0.02208240 0.05452137 # # DOID: 252 0.06134327 0.04761992 0.02801328 0.02801328 0.06134327
的doSim
函数需要三个参数DOID1
,DOID2
和测量
。DOID1
和DOID2
应该做术语的一个向量,而测量
应该是一个蕾斯尼克,江,林,Rel,王。
我们还实现一个情节功能simplot
可视化相似的结果。
simplot(年代,颜色。低=“白色”,颜色。高=“红色”,实验室= TRUE,位数= 2,实验室。大小= 5,字体。大小= 14日xlab = " ", ylab = " ")
参数color.low
和colow.high
用于设置颜色梯度;实验室
是一个逻辑参数指示是否显示相似的价值观,数字
显示小数点后的数量和使用labs.size
控制字体大小相似的价值观;font.size
设置字体大小的轴和标签的坐标系统。
在做术语之间的语义相似度的基础上,剂量也可以计算基因产物之间的语义相似度。剂量提供了四种方法的调用马克斯
,avg
,rcmax
和BMA
结合语义相似度得分的多个方面。基因和基因簇之间的相似之处由多个条款也计算了这些注释相结合的方法。计算的细节,请参考的装饰图案GOSemSim。
在剂量,我们实现了geneSim
测量之间的语义相似的基因。
g1 < - c (" 84842 ", " 2524 ", " 10590 ", " 3070 ", " 91746 ") g2 < - c (“84289”、“6045”、“56999”、“9869”) geneSim (g1 [1], g2[1],衡量=“王”,结合=“BMA”)
# # 0.051 [1]
gs < - geneSim (g1、g2、测量=“王”,结合= BMA) gs
# # # # 84842 84289 6045 56999 9869 0.051 0.135 0.355 0.284 0.103 # # 2524 # # 10590 0.172 0.517 0.517 0.150 0.173 0.242 0.573 0.262 # # 3070 # # 91746 0.517 1.000 1.000 0.351 0.308 0.527 0.496
的geneSim
需要四个参数geneID1
,geneID2
,测量
和结合
。geneID1
和geneID2
应该是一个向量entrez基因的id;测量
应该是一个蕾斯尼克,江,林,Rel,王,而结合
应该是一个马克斯,avg,rcmax和BMA如前所述。
的simplot
工作良好的输出doSim
和geneSim
。
我们还实现clusterSim
计算两个基因簇之间的语义相似度mclusterSim
计算多个基因集群之间的语义相似性。
clusterSim (g1、g2、测量=“王”,结合=“BMA”)
# # 0.508 [1]
g3 < - c(" 57491 ", " 6296 ", " 51438 ", " 5504 ", " 27319 ", " 1643 ")集群< -列表(a = g1, b = g2, c = g3) mclusterSim(集群,衡量=“王”,结合=“BMA”)
# # a b c # # 1.000 0.508 0.379 # # b c 0.379 0.610 1.000 0.508 1.000 0.610 # #
可以计算语义相似度GOSemSim8。
1。Schriml, l . M。et al。疾病本体:疾病语义集成的骨干。核酸的研究40岁,D940-D946 (2011)。
2。于G。,王,L.-G., Yan, G.-R. & He, Q.-Y. DOSE: An r/bioconductor package for disease ontology semantic and enrichment analysis.生物信息学31日,608 - 609 (2015)。
3所示。菲利普,r .语义相似性分类:信息化措施及其应用在自然语言歧义的问题。人工智能研究杂志》上11日,95 - 130 (1999)。
4所示。江,j。j & Conrath d . w .基于语料库统计和分类法词汇语义相似度。学报》10日在计算语言学国际会议研究(1997)。
5。林,d .信息理论相似度的定义。第十五届国际研讨会论文集在机器学习296 - 304 (1998)。
6。Schlicker,。,Domingues, F. S., Rahnenführer, J. & Lengauer, T. A new measure for functional similarity of gene products based on gene ontology.BMC生物信息学7,302 (2006)。
7所示。王,j . Z。杜,Z。,Payattakool, R., Yu, P. S. & Chen, C.-F. A new method to measure the semantic similarity of go terms.生物信息学(英国牛津大学)23日,1274 - 81 (2007)。
8。于G。et al。GOSemSim: r包测量之间的语义相似度和基因产品。生物信息学26日,976 - 978 (2010)。