知识图谱的生成方法及装置、实体对比方法及装置的制造方法
【专利说明】
【技术领域】
[0001]本发明涉及互联网应用技术领域,尤其涉及一种知识图谱的生成方法及装置、实体对比方法及装置。
【【背景技术】】
[0002]目前,用户获取信息的主要方式是搜索。当用户需要通过搜索获取两个实体对应某属性的对比结果时,如用户想要获取两个人在身高上的对比结果时,主要会采取两种方式来获取对比结果,一个是在搜索引擎中搜索“人物A和人物B谁高”,另一个是分别查询人物A的身高和人物B的身高,然后人工对比。
[0003]然而,现有技术中,第一种方式所获得的对比结果通常从网络上其他用户所提供的信息中获得,并通过搜索结果提供给用户,因此对比结果的准确性比较低。第二种方式由于需要用户手动查找并进行人工计算,因此获取对比结果的效率比较低,操作成本比较高。
【
【发明内容】
】
[0004]有鉴于此,本发明实施例提供了一种知识图谱的生成方法及装置、实体对比方法及装置,用以解决现有技术中获取实体对比结果的效率比较低,获取成本比较高以及对比结果的准确率比较低的问题。
[0005]本发明实施例的一方面,提供一种知识图谱的生成方法,包括:
[0006]采集各实体的结构化数据和非结构化数据;
[0007]对所述结构化数据和所述非结构化数据中各实体的属性信息进行数据预处理,并对经过数据预处理后的属性信息进行数据校验;
[0008]根据经过数据校验的各实体的属性信息,构建知识图谱。
[0009]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述采集各实体的结构化数据,包括:
[0010]从网络百科中采集各实体的结构化数据,以及,从质量度超过指定阈值的网页中采集各实体的非结构化数据;
[0011]其中,所述结构化数据包含实体的属性信息,所述属性信息包含属性名和对应的属性值,以及实体与其他实体的关系。
[0012]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,对所述结构化数据和所述非结构化数据中各实体的属性信息进行数据预处理,包括:
[0013]在所述结构化数据和所述非结构化数据中各实体的属性信息中去除错误的属性信息;
[0014]从所述结构化数据和所述非结构化数据中各实体的属性信息中,识别出语义相同的属性信息;
[0015]对识别出的语义相同的属性信息执行去重或者归一化处理。
[0016]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述对经过数据预处理后的属性信息进行数据校验,包括:
[0017]根据预设的校验规则,判断经过数据预处理后的属性信息的属性值是否正确;
[0018]若判断出经过数据预处理后的属性信息的属性值不正确,在经过数据预处理后的属性信息中删除属性值不正确的属性信息。
[0019]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据经过数据校验的各实体的属性信息,构建知识图谱之前,所述方法还包括:根据经过数据校验的各实体的属性信息,对所述属性信息中每个实体与其他实体的关系进行推理运算,以获得各实体中至少一个实体的扩展属性信息;
[0020]所述根据经过数据校验的各实体的属性信息,构建知识图谱,包括:
[0021]根据预定义属性,从经过数据校验的各实体的属性信息中筛除不属于所述预定义属性的属性信息;
[0022]根据筛除后得到的各实体的属性信息和各实体中至少一个实体的扩展属性信息,构建所述知识图谱。
[0023]本发明实施例的一方面,提供一种实体对比方法,包括:
[0024]所述根据经过数据校验的各实体的属性信息,构建知识图谱之前,所述方法还包括:根据经过数据校验的各实体的属性信息,对所述属性信息中每个实体与其他实体的关系进行推理运算,以获得各实体中至少一个实体的扩展属性信息;
[0025]所述根据经过数据校验的各实体的属性信息,构建知识图谱,包括:
[0026]根据预定义属性,从经过数据校验的各实体的属性信息中筛除不属于所述预定义属性的属性信息;
[0027]根据筛除后得到的各实体的属性信息和各实体中至少一个实体的扩展属性信息,构建所述知识图谱。
[0028]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,若所述知识图谱中存在所述属性名;对所述参与对比的至少两个实体对应于所述属性值进行对比,生成对比结果,包括:
[0029]对从知识图谱中获得的每个所述实体的属性值进行单位归一化;
[0030]对所述参与对比的至少两个实体对应于经过单位归一化的所述属性值进行对比,生成对比结果。
[0031]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,若所述知识图谱中不存在所述属性名;根据所述参与对比的至少两个实体和所述属性名,从知识图谱中获得每个所述实体的属性值,包括:
[0032]根据预定义的推理规则,确定所述知识图谱中可以计算出所述属性值的其他属性名;
[0033]从所述其他属性名中获得每个所述实体对应于其他属性名的属性值,并根据每个所述实体对应于其他属性名的属性值,计算所述属性名对应的属性值。
[0034]本发明实施例的一方面,提供一种知识图谱的生成装置,包括:
[0035]采集模块,用于采集各实体的结构化数据和非结构化数据;
[0036]处理模块,用于对所述结构化数据和所述非结构化数据中各实体的属性信息进行数据预处理,并对经过数据预处理后的属性信息进行数据校验;
[0037]生成模块,用于根据经过数据校验的各实体的属性信息,构建知识图谱。
[0038]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,采集模块,用于采集各实体的结构化数据,以及,从质量度超过指定阈值的网页中采集各实体的非结构化数据;
[0039]处理模块,用于对所述结构化数据中各实体的属性信息进行数据预处理,并对经过数据预处理后的属性信息进行数据校验;
[0040]生成模块,用于根据经过数据校验的各实体的属性信息,构建知识图谱。
[0041]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述处理模块,具体用于:
[0042]在所述结构化数据和所述非结构化数据中各实体的属性信息中去除错误的属性信息;
[0043]从所述结构化数据和所述非结构化数据中各实体的属性信息中,识别出语义相同的属性信息;
[0044]对识别出的语义相同的属性信息执行去重或者归一化处理。
[0045]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述处理模块,具体用于:
[0046]根据预设的校验规则,判断经过数据预处理后的属性信息的属性值是否正确;
[0047]若判断出经过数据预处理后的属性信息的属性值不正确,在经过数据预处理后的属性信息中删除属性值不正确的属性信息。
[0048]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述处理模块,还用于根据经过数据校验的各实体的属性信息,对所述属性信息中每个实体与其他实体的关系进行推理运算,以获得各实体中至少一个实体的扩展属性信息;
[0049]所述生成模块,具体用于:
[0050]根据预定义属性,从经过数据校验的各实体的属性信息中筛除不属于所述预定义属性的属性信息;
[0051]根据筛除后得到的各实体的属性信息和各实体中至少一个实体的扩展属性信息,构建所述知识图谱。
[0052]本发明实施例的一方面,提供一种实体对比装置,包括:
[0053]获取模块,用于获得查询信息,所述查询信息包括参与对比的至少两个实体和对比的属性名;
[0054]处理模块,用于根据所述参与对比的至少两个实体和所述属性名,从知识图谱中获得每个所述实体的属性值;所述知识图谱为权利要求1至5中任一项所述的知识图谱的生成方法生成的;
[0055]对比模块,用于对所述参与对比的至少两个实体对应于所述属性值进行对比,生成对比结果。
[0056]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,若所述知识图谱中存在所述属性名;所述对比模块,具体用于:
[0057]对从知识图谱中获得的每个所述实体的属性值进行单位归一化;
[0058]对所述参与对比的至少两个实体对应于经过单位归一化的所述属性值进行对比,生成对比结果。
[0059]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,若所述知识图谱中不存在所述属性名;所述处理模块,具体用于:
[0060]根据预定义的推理规则,确定所述知识图谱中可以计算出所述属性值的其他属性名;
[0061]从所述其他属性名中获得每个所述实体对应于其他属性名的属性值,并根据每个所述实体对应于其他属性名的属性值,计算所述属性名对应的属性值。
[0062]由以上技术方案可以看出,本发明实施例具有以下有益效果:
[0063]本发明实施例提供的技术方案中,通过对结构化数据和非结构化数据进行挖掘和处理,然后构建知识图谱,在知识图谱的基础上能够获取所需要的属性值,最终实现实体对应于属性进行对比。与现有技术中,从网络上其他用户提供的信息中获得对比结果的方式相比,本发明实施例所提供的技术方案获得的对比结果的准确性更高。与现