一种兴趣点数据的挖掘方法和装置的制造方法

文档序号：9564676阅读：489来源：国知局

一种兴趣点数据的挖掘方法和装置的制造方法
【技术领域】
[0001] 本发明涉及计算机处理的技术领域，特别是涉及一种兴趣点数据的挖掘方法和一种兴趣点数据的挖掘装置。
【背景技术】
[0002] 兴趣点（Point of Interest，Ρ0Ι)，又可以称为"信息点"，其包含多方面的信息，如名称、类别、经度炜度等等。
[0003] 在地理信息系统中，一个POI可以是一栋房子、一个商铺、一个邮筒、一个公交站等。
[0004] 传统的地理信息采集方法需要地图测绘人员采用精密的测绘仪器去获取一个兴趣点的经炜度，然后再标记下来。
[0005] 正因为POI数据的采集是一个非常费时费事的工作，对一个地理信息系统来说， POI的数量在一定程度代表着整个系统的价值。
[0006] 为了丰富地理信息系统的POI数据的数量，目前从网页中挖掘POI数据，大多是根据网页的结构配置合适的模板，通过模板来提取。
[0007] 因为模板需要人工进行配置，考虑到人工的成本，这种方法往往应用于那些比较大的网站，因为这些较大的网站包含较多结构相似的网页，配置一个模板可以从许多的网页提取较多的POI数据。
[0008] 但是，对于那些虽然包含POI数据、但并不是大量存在于同一个网站中的网页，单独为其配置一个模板，可能只能提取少量的POI数据，POI数据的提取效率很低，成本很高。

【发明内容】

[0009] 鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种兴趣点数据的挖掘方法和相应的一种兴趣点数据的挖掘装置。
[0010] 依据本发明的一个方面，提供了一种兴趣点数据的挖掘方法，包括：
[0011] 在网页中提取与预设的兴趣点数据匹配的地址数据和名称数据；
[0012] 计算所述网页包含的地址数据在所述网页中的第一文档路径；
[0013] 计算所述网页包含的名称数据在所述网页中的第二文档路径；
[0014] 根据所述第一文档路径与所述第二文档路径识别属于同一兴趣点数据的地址数据与名称数据。
[0015] 可选地，预设的兴趣点数据包括关联的兴趣点名称与兴趣点地址；
[0016] 所述在网页中提取与预设的兴趣点数据匹配的地址数据和名称数据的步骤包括：
[0017] 在网页中提取地址数据；
[0018] 判断所述地址数据与所述兴趣点地址是否匹配；若是，则在网页中查找与所述兴趣点名称匹配的名称数据。
[0019] 可选地，所述在网页中提取地址数据的步骤包括：
[0020] 对所述网页中的文本数据进行分词处理，获得一个或多个分词；
[0021] 当一个文本片段的分词与预置的地址信息匹配时，将所述文本片段作为地址数据进行提取。
[0022] 可选地，所述计算所述网页包含的地址数据在所述网页中的第一文档路径的步骤包括：
[0023] 计算每个地址数据在所述网页中的第一子文档路径；
[0024] 当所述第一子文档路径相同时，将所述第一子文档路径设置为所述网页包含的地址数据在所述网页中的第一文档路径。
[0025] 可选地，所述计算所述网页包含的名称数据在所述网页中的第二文档路径的步骤包括：
[0026] 计算每个名称数据在所述网页中的第二子文档路径；
[0027] 当所述第二子文档路径相同时，将所述第二子文档路径设置为所述网页包含的名称数据在所述网页中的第二文档路径。
[0028] 可选地，所述第一文档路径具有第一序号，所述第二文档路径具有第二序号；
[0029] 所述根据所述第一文档路径与所述第二文档路径识别属于同一兴趣点数据的地址数据与名称数据的步骤包括：
[0030] 提取序号相同的第一序号与第二序号；
[0031] 确认所述第一序号所属的地址数据，与，所述第二序号所属的名称数据属于同一兴趣点数据。
[0032] 根据本发明的另一方面，提供了一种兴趣点数据的挖掘装置，包括：
[0033] 网页数据提取模块，适于在网页中提取与预设的兴趣点数据匹配的地址数据和名称数据；
[0034] 第一文档路径计算模块，适于计算所述网页包含的地址数据在所述网页中的第一文档路径；
[0035] 第二文档路径计算模块，适于计算所述网页包含的名称数据在所述网页中的第二文档路径；
[0036] 兴趣点数据识别模块，适于根据所述第一文档路径与所述第二文档路径识别属于同一兴趣点数据的地址数据与名称数据。
[0037] 可选地，预设的兴趣点数据包括关联的兴趣点名称与兴趣点地址；
[0038] 所述网页数据提取模块还适于：
[0039] 在网页中提取地址数据；
[0040] 判断所述地址数据与所述兴趣点地址是否匹配；若是，则在网页中查找与所述兴趣点名称匹配的名称数据。
[0041] 可选地，所述网页数据提取模块还适于：
[0042] 对所述网页中的文本数据进行分词处理，获得一个或多个分词；
[0043] 当一个文本片段的分词与预置的地址信息匹配时，将所述文本片段作为地址数据进行提取。
[0044] 可选地，所述第一文档路径计算模块还适于：
[0045] 计算每个地址数据在所述网页中的第一子文档路径；
[0046] 当所述第一子文档路径相同时，将所述第一子文档路径设置为所述网页包含的地址数据在所述网页中的第一文档路径。
[0047] 可选地，所述第二文档路径计算模块还适于：
[0048] 计算每个名称数据在所述网页中的第二子文档路径；
[0049] 当所述第二子文档路径相同时，将所述第二子文档路径设置为所述网页包含的名称数据在所述网页中的第二文档路径。
[0050] 可选地，所述第一文档路径具有第一序号，所述第二文档路径具有第二序号；
[0051 ] 所述兴趣点数据识别模块还适于：
[0052] 提取序号相同的第一序号与第二序号；
[0053] 确认所述第一序号所属的地址数据，与，所述第二序号所属的名称数据属于同一兴趣点数据。
[0054] 本发明实施例在网页中提取与预设的兴趣点数据匹配的地址数据和名称数据，通过网页包含的地址数据的第一文档路径及网页包含的名称数据的第二文档路径识别兴趣点数据，实现了通过通用的方式挖掘兴趣点数据，避免了人工配置模板，大大提高了兴趣点数据的提取效率，降低了成本。
[0055] 上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的【具体实施方式】。
【附图说明】
[0056] 通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：
[0057] 图1示出了根据本发明一个实施例的一种兴趣点数据的挖掘方法实施例的步骤流程图；以及
[0058] 图2示出了根据本发明一个实施例的一种兴趣点数据的挖掘装置实施例的结构框图。
【具体实施方式】
[0059] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。
[0060] 参照图1，示出了根据本发明一个实施例的一种兴趣点数据的挖掘方法实施例的步骤流程图，具体可以包括如下步骤：
[0061] 步骤101，在网页中提取与预设的兴趣点数据匹配的地址数据和名称数据；
[0062] 在本发明实施例中，爬虫可以预先通过网页间的链接关系，抓取互联网的网页并保存，爬虫抓取的网页保存在网页数据库中形成大量的搜索资源。
[0063] 对于存在较多的POI数据、且POI数据分布具有规律的网页，如用户进行餐饮、旅游进行点评的网站中的网页，地图网站中的网页等等，可以通过配置模板进行提取，从而获取到大量的POI数据。
[0064] 这些兴趣点数据，通常可以包括关联的兴趣点名称与兴趣点地址等信息，其示例可以如表1所示：
[0065] 表 1
[0067] 兴趣点名称与兴趣点地址可以与存在较少的POI数据、且POI数据分布不具有规律的网页（即单网页）中的地址数据和名称数据。
[0068] 在本发明的一个可选实施例中，步骤101可以包括如下子步骤：
[0069] 子步骤S11，在网页中提取地址数据；
[0070] 在具体实现中，对于单网页，可以预先获取全国的省、市、县（区）、乡镇、道路等地址信息，创建一个地址信息库。
[0071] 对网页中的文本数据可以进行分词处理，获得一个或多个分词，将该一个或多个分词在地址信息库中进行查询。
[0072] 当一个文本片段的分词与预置的地址信息匹配时，将该文本片段作为地址数据进行提取。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王智广;魏少俊;
技术所有人：北京奇虎科技有限公司;奇智软件（北京）有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。