一种兴趣点数据的挖掘方法和装置的制造方法

文档序号:9564676阅读:489来源:国知局
一种兴趣点数据的挖掘方法和装置的制造方法
【技术领域】
[0001] 本发明涉及计算机处理的技术领域,特别是涉及一种兴趣点数据的挖掘方法和一 种兴趣点数据的挖掘装置。
【背景技术】
[0002] 兴趣点(Point of Interest,Ρ0Ι),又可以称为"信息点",其包含多方面的信息, 如名称、类别、经度炜度等等。
[0003] 在地理信息系统中,一个POI可以是一栋房子、一个商铺、一个邮筒、一个公交站 等。
[0004] 传统的地理信息采集方法需要地图测绘人员采用精密的测绘仪器去获取一个兴 趣点的经炜度,然后再标记下来。
[0005] 正因为POI数据的采集是一个非常费时费事的工作,对一个地理信息系统来说, POI的数量在一定程度代表着整个系统的价值。
[0006] 为了丰富地理信息系统的POI数据的数量,目前从网页中挖掘POI数据,大多是根 据网页的结构配置合适的模板,通过模板来提取。
[0007] 因为模板需要人工进行配置,考虑到人工的成本,这种方法往往应用于那些比较 大的网站,因为这些较大的网站包含较多结构相似的网页,配置一个模板可以从许多的网 页提取较多的POI数据。
[0008] 但是,对于那些虽然包含POI数据、但并不是大量存在于同一个网站中的网页,单 独为其配置一个模板,可能只能提取少量的POI数据,POI数据的提取效率很低,成本很高。

【发明内容】

[0009] 鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上 述问题的一种兴趣点数据的挖掘方法和相应的一种兴趣点数据的挖掘装置。
[0010] 依据本发明的一个方面,提供了一种兴趣点数据的挖掘方法,包括:
[0011] 在网页中提取与预设的兴趣点数据匹配的地址数据和名称数据;
[0012] 计算所述网页包含的地址数据在所述网页中的第一文档路径;
[0013] 计算所述网页包含的名称数据在所述网页中的第二文档路径;
[0014] 根据所述第一文档路径与所述第二文档路径识别属于同一兴趣点数据的地址数 据与名称数据。
[0015] 可选地,预设的兴趣点数据包括关联的兴趣点名称与兴趣点地址;
[0016] 所述在网页中提取与预设的兴趣点数据匹配的地址数据和名称数据的步骤包 括:
[0017] 在网页中提取地址数据;
[0018] 判断所述地址数据与所述兴趣点地址是否匹配;若是,则在网页中查找与所述兴 趣点名称匹配的名称数据。
[0019] 可选地,所述在网页中提取地址数据的步骤包括:
[0020] 对所述网页中的文本数据进行分词处理,获得一个或多个分词;
[0021] 当一个文本片段的分词与预置的地址信息匹配时,将所述文本片段作为地址数据 进行提取。
[0022] 可选地,所述计算所述网页包含的地址数据在所述网页中的第一文档路径的步骤 包括:
[0023] 计算每个地址数据在所述网页中的第一子文档路径;
[0024] 当所述第一子文档路径相同时,将所述第一子文档路径设置为所述网页包含的地 址数据在所述网页中的第一文档路径。
[0025] 可选地,所述计算所述网页包含的名称数据在所述网页中的第二文档路径的步骤 包括:
[0026] 计算每个名称数据在所述网页中的第二子文档路径;
[0027] 当所述第二子文档路径相同时,将所述第二子文档路径设置为所述网页包含的名 称数据在所述网页中的第二文档路径。
[0028] 可选地,所述第一文档路径具有第一序号,所述第二文档路径具有第二序号;
[0029] 所述根据所述第一文档路径与所述第二文档路径识别属于同一兴趣点数据的地 址数据与名称数据的步骤包括:
[0030] 提取序号相同的第一序号与第二序号;
[0031] 确认所述第一序号所属的地址数据,与,所述第二序号所属的名称数据属于同一 兴趣点数据。
[0032] 根据本发明的另一方面,提供了一种兴趣点数据的挖掘装置,包括:
[0033] 网页数据提取模块,适于在网页中提取与预设的兴趣点数据匹配的地址数据和名 称数据;
[0034] 第一文档路径计算模块,适于计算所述网页包含的地址数据在所述网页中的第一 文档路径;
[0035] 第二文档路径计算模块,适于计算所述网页包含的名称数据在所述网页中的第二 文档路径;
[0036] 兴趣点数据识别模块,适于根据所述第一文档路径与所述第二文档路径识别属于 同一兴趣点数据的地址数据与名称数据。
[0037] 可选地,预设的兴趣点数据包括关联的兴趣点名称与兴趣点地址;
[0038] 所述网页数据提取模块还适于:
[0039] 在网页中提取地址数据;
[0040] 判断所述地址数据与所述兴趣点地址是否匹配;若是,则在网页中查找与所述兴 趣点名称匹配的名称数据。
[0041] 可选地,所述网页数据提取模块还适于:
[0042] 对所述网页中的文本数据进行分词处理,获得一个或多个分词;
[0043] 当一个文本片段的分词与预置的地址信息匹配时,将所述文本片段作为地址数据 进行提取。
[0044] 可选地,所述第一文档路径计算模块还适于:
[0045] 计算每个地址数据在所述网页中的第一子文档路径;
[0046] 当所述第一子文档路径相同时,将所述第一子文档路径设置为所述网页包含的地 址数据在所述网页中的第一文档路径。
[0047] 可选地,所述第二文档路径计算模块还适于:
[0048] 计算每个名称数据在所述网页中的第二子文档路径;
[0049] 当所述第二子文档路径相同时,将所述第二子文档路径设置为所述网页包含的名 称数据在所述网页中的第二文档路径。
[0050] 可选地,所述第一文档路径具有第一序号,所述第二文档路径具有第二序号;
[0051 ] 所述兴趣点数据识别模块还适于:
[0052] 提取序号相同的第一序号与第二序号;
[0053] 确认所述第一序号所属的地址数据,与,所述第二序号所属的名称数据属于同一 兴趣点数据。
[0054] 本发明实施例在网页中提取与预设的兴趣点数据匹配的地址数据和名称数据,通 过网页包含的地址数据的第一文档路径及网页包含的名称数据的第二文档路径识别兴趣 点数据,实现了通过通用的方式挖掘兴趣点数据,避免了人工配置模板,大大提高了兴趣点 数据的提取效率,降低了成本。
[0055] 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段, 而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够 更明显易懂,以下特举本发明的【具体实施方式】。
【附图说明】
[0056] 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通 技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明 的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0057] 图1示出了根据本发明一个实施例的一种兴趣点数据的挖掘方法实施例的步骤 流程图;以及
[0058] 图2示出了根据本发明一个实施例的一种兴趣点数据的挖掘装置实施例的结构 框图。
【具体实施方式】
[0059] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开 的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例 所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围 完整的传达给本领域的技术人员。
[0060] 参照图1,示出了根据本发明一个实施例的一种兴趣点数据的挖掘方法实施例的 步骤流程图,具体可以包括如下步骤:
[0061] 步骤101,在网页中提取与预设的兴趣点数据匹配的地址数据和名称数据;
[0062] 在本发明实施例中,爬虫可以预先通过网页间的链接关系,抓取互联网的网页并 保存,爬虫抓取的网页保存在网页数据库中形成大量的搜索资源。
[0063] 对于存在较多的POI数据、且POI数据分布具有规律的网页,如用户进行餐饮、旅 游进行点评的网站中的网页,地图网站中的网页等等,可以通过配置模板进行提取,从而获 取到大量的POI数据。
[0064] 这些兴趣点数据,通常可以包括关联的兴趣点名称与兴趣点地址等信息,其示例 可以如表1所示:
[0065] 表 1
[0067] 兴趣点名称与兴趣点地址可以与存在较少的POI数据、且POI数据分布不具有规 律的网页(即单网页)中的地址数据和名称数据。
[0068] 在本发明的一个可选实施例中,步骤101可以包括如下子步骤:
[0069] 子步骤S11,在网页中提取地址数据;
[0070] 在具体实现中,对于单网页,可以预先获取全国的省、市、县(区)、乡镇、道路等地 址信息,创建一个地址信息库。
[0071] 对网页中的文本数据可以进行分词处理,获得一个或多个分词,将该一个或多个 分词在地址信息库中进行查询。
[0072] 当一个文本片段的分词与预置的地址信息匹配时,将该文本片段作为地址数据进 行提取。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1