本发明涉及语义网络技术领域,具体涉及一种混合求解本体概念语义相似度的计算方法。
背景技术:
词语相似度计算在信息检索、数据挖掘、机器翻译、个性化推荐等领域有广泛的应用,因此提高相似度计算结果的准确性显得尤为重要。随着领域本体的不断普及,以及本体树对概念节点之间关系的准确描述,本体已经成为语义相似度研究的基础。当前基于本体的相似度计算主要分为基于语义距离、基于信息内容、基于属性、混合式相似度计算。基于语义距离的方法是最早采用的本体相似度计算方法,此方法通过概念词在本体树中的路径长度来量化概念节点之间的语义距离。基于信息内容的方法是用概念共同父节点的信息量来衡量二者的相似度,节点的信息量用节点包含内容在本体中出现的频率p来衡量。为了提高本体概念间语义相似度的结果准确度,混合式相似度计算是目前比较常见的相似度算法,这里综合考虑信息量、概念属性来计算。基于上述需求,本发明提供了一种混合求解本体概念语义相似度的计算方法。
技术实现要素:
针对于如何提高本体概念间语义相似度的结果准确度问题,本发明提供了一种混合求解本体概念语义相似度的计算方法。
为了解决上述问题,本发明是通过以下技术方案实现的:
步骤1:初始化本体概念领域模块。
步骤2:求解其共同父节点在在树状层次结构中的信息量值I(pr)。
步骤3:分别求解两本体概念(g1,g2)在树状层次结构中的信息量值I(g1)、I(g2)。
步骤4:求解两本体概念(g1,g2)属性之间的相似度sim2(g1,g2)。
步骤:5:综合上述步骤,可以得出两本体概念间的语义相似度sim(g1,g2)。
本发明的有益效果是:
1、相比较传统的基于信息论方法求解语义相似度,此方法准确度更高。
2、此计算概念语义相似度的方法在量化概念上更接近专家的经验值。
3、此计算模型能够比较准确的反映概念之间的语义相似度。
4、此算法模型考虑的更加全面,综合了概念属性间的相似度问题,计算结果也更加的准确。
5、更好的提高了本体推理的效果。
6、具有更广泛的应用研究价值。
附图说明
图1为一种改进的基于信息论的概念语义相似度计算方法结构流程图。
图2为本体概念领域模块语义树形图。
具体实施方式
为了解决上述问题,本发明提出了一种混合求解本体概念语义相似度的计算方法。
为了提高本体概念间语义相似度的结果准确度问题,结合图1对本发明进行了详细说明,其具体实施步骤如下:
步骤1:初始化本体概念领域模块。
步骤2:求解其共同父节点在在树状层次结构中的信息量值I(pr),其具体计算过程如下:
基于信息内容的计算相似度方法主要是通过衡量概念所包含的信息量来计算相似度。概念是对其祖先节点的继承,是祖先节点的又一次细化,所以可通过祖先节点包含的信息量来衡量两个概念的共享信息。
求解其共同父节点在树状层次结构中的信息量值I(pr)
根据图2,得出两本体概念(g1,g2)共同父节点在树状层次结构中出现的概率值p(pr)
上式n(pr)为(g1,g2)共同父节点在本体树中出现的次数,为父节点的直接子节点(g1,g2,…,gk)在本体树中出现的总次数,n(o)为本体树的总节点数。上式k为共同父节点直接子节点的个数。
即I(pr)=-p(pr)lnp(pr)
步骤3:分别求解两本体概念(g1,g2)在树状层次结构中的信息量值I(g1)、I(g2),其具体求解过程如下:
求解两本体概念的在树状层次结构中的信息量值I(g1)、I(g2)
同理,根据图2,得出两本体概念(g1,g2)在树状层次结构中出现的概率值p(g1)、p(g2)
上式n(g1)、n(g2)分别为g1、g2在本体树中出现的次数,分别为g1、g2的直接子节点(g11,g12,…,g1x)、(g21,g22,…,g2y)在本体树中出现的总次数,n(o)为本体树的总节点数。上式x、y分别为g1、g2直接子节点的个数。
所以I(g1)=-p(g1)lnp(g1)
I(g2)=-p(g2)lnp(g2)
步骤4:求解两本体概念(g1,g2)属性之间的相似度sim2(g1,g2),需先得到(g1,g2)基于自定义关系属性的相似度sim关(g1,g2)和(g1,g2)基于符号类型属性的相似度sim符(g1,g2),其具体计算过程如下:
概念属性特征是人们辨别和区分事物的标识,主要分为自定义关系属性和符号类型属性。
步骤4.1)(g1,g2)基于自定义关系属性的相似度sim关(g1,g1)
如果两个自定义关系进行比较,两个关系相同,那么sim关(g1,g2)=1,否则,sim关(g1,g2)=0
假设g1,g2自定义关系属性分别为(S11,S12,…,S1g),(S21′,S22′,…,S2h′),g、h分别为g1,g2自定义关系属性的个数。
即相似度有g×h个,得下列相似度矩阵simij
依次取每行最大相似度的值
步骤4.2)(g1,g2)基于符号类型属性的相似度sim符(g1,g2)
同理可得符号类型属性的相似度sim符(g1,g2)
如果两个符号类型属性进行比较,两个符号类型相同,那么sim关(g1,g2)=1,否则,sim关(g1,g2)=0
假设g1,g2符号类型属性分别为(f11,f12,…,f1m),(f21′,f22′,…,f2n′),m、n分别为g1,g2符号类型属性的个数。
同理可得符号类型属性的相似度sim符(g1,g2)
步骤4.3)求解sim2(g1,g2)
步骤:5:综合上述步骤,可以得出两本体概念间的语义相似度sim(g1,g2),其具体求解过程如下:
sim(g1,g2)=αsim1(g1,g2)+βsim2(g1,g2)
α、β分别为基于信息论方法求解的sim1(g1,g2)、sim2(g1,g2)的权重系数,这个可以根据实验得出最佳参数值。
一种混合求解本体概念语义相似度的计算方法,其伪代码过程如下:
输入:两本体概念(g1,g2)
输出:两本体概念间的语义相似度sim(g1,g2)。