一种混合求解本体概念语义相似度的计算方法与流程

文档序号：11063561阅读：962来源：国知局

本发明涉及语义网络技术领域，具体涉及一种混合求解本体概念语义相似度的计算方法。

背景技术：

词语相似度计算在信息检索、数据挖掘、机器翻译、个性化推荐等领域有广泛的应用，因此提高相似度计算结果的准确性显得尤为重要。随着领域本体的不断普及，以及本体树对概念节点之间关系的准确描述，本体已经成为语义相似度研究的基础。当前基于本体的相似度计算主要分为基于语义距离、基于信息内容、基于属性、混合式相似度计算。基于语义距离的方法是最早采用的本体相似度计算方法，此方法通过概念词在本体树中的路径长度来量化概念节点之间的语义距离。基于信息内容的方法是用概念共同父节点的信息量来衡量二者的相似度，节点的信息量用节点包含内容在本体中出现的频率p来衡量。为了提高本体概念间语义相似度的结果准确度，混合式相似度计算是目前比较常见的相似度算法,这里综合考虑信息量、概念属性来计算。基于上述需求，本发明提供了一种混合求解本体概念语义相似度的计算方法。

技术实现要素：

针对于如何提高本体概念间语义相似度的结果准确度问题，本发明提供了一种混合求解本体概念语义相似度的计算方法。

为了解决上述问题，本发明是通过以下技术方案实现的：

步骤1：初始化本体概念领域模块。

步骤2：求解其共同父节点在在树状层次结构中的信息量值I(pr)。

步骤3：分别求解两本体概念(g₁，g₂)在树状层次结构中的信息量值I(g₁)、I(g₂)。

步骤4：求解两本体概念(g₁，g₂)属性之间的相似度sim₂(g₁，g₂)。

步骤:5：综合上述步骤，可以得出两本体概念间的语义相似度sim(g₁，g₂)。

本发明的有益效果是：

1、相比较传统的基于信息论方法求解语义相似度，此方法准确度更高。

2、此计算概念语义相似度的方法在量化概念上更接近专家的经验值。

3、此计算模型能够比较准确的反映概念之间的语义相似度。

4、此算法模型考虑的更加全面，综合了概念属性间的相似度问题，计算结果也更加的准确。

5、更好的提高了本体推理的效果。

6、具有更广泛的应用研究价值。

附图说明

图1为一种改进的基于信息论的概念语义相似度计算方法结构流程图。

图2为本体概念领域模块语义树形图。

具体实施方式

为了解决上述问题，本发明提出了一种混合求解本体概念语义相似度的计算方法。

为了提高本体概念间语义相似度的结果准确度问题，结合图1对本发明进行了详细说明，其具体实施步骤如下：

步骤1：初始化本体概念领域模块。

步骤2：求解其共同父节点在在树状层次结构中的信息量值I(pr)，其具体计算过程如下：

基于信息内容的计算相似度方法主要是通过衡量概念所包含的信息量来计算相似度。概念是对其祖先节点的继承，是祖先节点的又一次细化，所以可通过祖先节点包含的信息量来衡量两个概念的共享信息。

求解其共同父节点在树状层次结构中的信息量值I(pr)

根据图2，得出两本体概念(g₁，g₂)共同父节点在树状层次结构中出现的概率值p(pr)

上式n(pr)为(g₁，g₂)共同父节点在本体树中出现的次数，为父节点的直接子节点(g₁，g₂，…，g_k)在本体树中出现的总次数,n(o)为本体树的总节点数。上式k为共同父节点直接子节点的个数。

即I(pr)＝-p(pr)lnp(pr)

步骤3：分别求解两本体概念(g₁，g₂)在树状层次结构中的信息量值I(g₁)、I(g₂)，其具体求解过程如下：

求解两本体概念的在树状层次结构中的信息量值I(g₁)、I(g₂)

同理，根据图2，得出两本体概念(g₁，g₂)在树状层次结构中出现的概率值p(g₁)、p(g₂)

上式n(g₁)、n(g₂)分别为g₁、g₂在本体树中出现的次数，分别为g₁、g₂的直接子节点(g₁₁，g₁₂，…，g_1x)、(g₂₁，g₂₂，…，g_2y)在本体树中出现的总次数,n(o)为本体树的总节点数。上式x、y分别为g₁、g₂直接子节点的个数。

所以I(g₁)＝-p(g₁)lnp(g₁)

I(g₂)＝-p(g₂)lnp(g₂)

步骤4：求解两本体概念(g₁，g₂)属性之间的相似度sim₂(g₁，g₂)，需先得到(g₁，g₂)基于自定义关系属性的相似度sim_关(g₁，g₂)和(g₁，g₂)基于符号类型属性的相似度sim_符(g₁，g₂)，其具体计算过程如下：

概念属性特征是人们辨别和区分事物的标识，主要分为自定义关系属性和符号类型属性。

步骤4.1)(g₁，g₂)基于自定义关系属性的相似度sim_关(g₁，g₁)

如果两个自定义关系进行比较，两个关系相同，那么sim_关(g₁，g₂)＝1，否则，sim_关(g₁，g₂)＝0

假设g₁，g₂自定义关系属性分别为(S₁₁，S₁₂，…，S_1g),(S₂₁′，S₂₂′，…，S_2h′)，g、h分别为g₁，g₂自定义关系属性的个数。

即相似度有g×h个，得下列相似度矩阵sim_ij

依次取每行最大相似度的值

步骤4.2)(g₁，g₂)基于符号类型属性的相似度sim_符(g₁，g₂)

同理可得符号类型属性的相似度sim_符(g₁，g₂)

如果两个符号类型属性进行比较，两个符号类型相同，那么sim_关(g₁，g₂)＝1，否则，sim_关(g₁，g₂)＝0

假设g₁，g₂符号类型属性分别为(f₁₁，f₁₂，…，f_1m),(f₂₁′，f₂₂′，…，f_2n′)，m、n分别为g₁，g₂符号类型属性的个数。

同理可得符号类型属性的相似度sim_符(g1，g2)

步骤4.3)求解sim₂(g₁，g₂)

步骤:5：综合上述步骤，可以得出两本体概念间的语义相似度sim(g₁，g₂)，其具体求解过程如下：

sim(g₁，g₂)＝αsim₁(g₁，g₂)+βsim₂(g₁，g₂)

α、β分别为基于信息论方法求解的sim₁(g₁，g₂)、sim₂(g₁，g₂)的权重系数，这个可以根据实验得出最佳参数值。

一种混合求解本体概念语义相似度的计算方法，其伪代码过程如下：

输入：两本体概念(g₁，g₂)

输出：两本体概念间的语义相似度sim(g₁，g₂)。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：金平艳;
技术所有人：四川用联信息技术有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。