一种网页信息提取方法及装置的制造方法

文档序号:8223649阅读:570来源:国知局
一种网页信息提取方法及装置的制造方法
【技术领域】
[0001]本发明涉及互联网技术领域,特别涉及一种网页信息提取方法及装置。
【背景技术】
[0002]互联网是一个巨大的信息发布和传播源,目前网页数量已超过800亿,每小时还以惊人的速度在增长,这些网页中可能包含用户需要的大量信息,例如,对于建筑行业用户来讲,这些网页中可能包含有潜在客户列表与联系信息、建筑材料的价格列表、实时的建筑工程信息、供求信息和招中标信息等等。
[0003]实际应用中,为了能够有针对性的向用户提供网页信息,一般通过网页信息提取方式从已存在的网页中提取对用户有用的信息,并将所提取的网页信息提供给用户。现有技术中,提取网页信息时,可以通过关键字匹配等方法实现。具体的,通过关键字匹配法提取网页信息时,在目标网页的源代码中查找与预设的关键字相匹配的信息,并提取与预设的关键字相匹配的信息。应用上述方法可以提取出目标网页中的相关信息,然而,网页中所包含的信息量较大,可能会存在多个与预设的关键字相匹配的信息,例如,目标网页中包含建筑行业潜在客户的邮箱信息和网页开发者的邮箱信息,预设的关键字为用于提取网页中的邮箱信息的关键字,这样可以提取出目标网页中所包含的建筑行业潜在客户的邮箱信息和网页开发者的邮箱信息,很明显网页开发者的邮箱信息并不是用户所需要的信息,可见,应用上述方法提取网页信息时,可能造成所提取的信息中包含冗余信息或者包含错误信息,影响用户体验。
[0004]另外,在所提取的信息中包含冗余信息的情况下,若要剔除冗余信息,以为用户提供较为精确的网页信息,则需要对所提取的信息进行二次处理,信息提取效率低。

【发明内容】

[0005]本发明实施例公开了一种网页信息提取方法及装置,以为用户提供较为精确的网页信息,提高信息提取效率及用户体验。
[0006]为达到上述目的,本发明实施例公开了一种网页信息提取方法,所述方法包括:
[0007]获得目标网页的源代码;
[0008]获得要提取的网页信息的属性对应的正则表达式和针对上述正则表达式的运算式;
[0009]根据所获得的正则表达式和运算式,从所述目标网页的源代码中提取网页信息。
[0010]在本发明的一种具体实现方式中,所述网页信息提取方法还包括:
[0011]对所提取的网页信息进行分类汇总,以分类形式向用户展示。
[0012]在本发明的一种具体实现方式中,所述根据所获得的正则表达式和运算式,从所述目标网页的源代码中提取网页信息,包括:
[0013]根据所获得的正则表达和运算式,确定所获得的正则表达式和运算式对应的逆波兰表达式;
[0014]根据所确定的逆波兰表达式,从所述目标网页的源代码中提取网页信息。
[0015]在本发明的一种具体实现方式中,所述获得要提取的网页信息的属性对应的正则表达式和针对上述正则表达式的运算式,包括:
[0016]根据用户的输入信息,获得要提取的网页信息的属性对应的正则表达式和针对上述正则表达式的运算式;或
[0017]根据预设的表达式生成规则,获得要提取的网页信息的属性对应的正则表达式;根据预设的运算式生成规则,获得针对上述正则表达式的运算式。
[0018]在本发明的一种具体实现方式中,所述运算式中使用的运算符号为预定义的符号。
[0019]为达到上述目的,本发明实施例公开了一种网页信息提取装置,所述装置包括:
[0020]源代码获得模块,用于获得目标网页的源代码;
[0021]表达式获得模块,用于获得要提取的网页信息的属性对应的正则表达式和针对上述正则表达式的运算式;
[0022]网页信息提取模块,用于根据所获得的正则表达式和运算式,从目标网页的源代码中提取网页信息。
[0023]在本发明的一种具体实现方式中,所述网页信息提取装置还包括:
[0024]分类汇总模块,用于对所提取的网页信息进行分类汇总,以分类形式向用户展示。
[0025]在本发明的一种具体实现方式中,所述网页信息提取模块,包括:
[0026]逆波兰表达式确定子模块,用于根据所获得的正则表达和运算式,确定所获得的正则表达式和运算式对应的逆波兰表达式;
[0027]网页信息提取子模块,用于根据所确定的逆波兰表达式,从目标网页的源代码中提取网页信息。
[0028]在本发明的一种具体实现方式中,所述表达式获得模块,具体用于根据用户的输入信息,获得要提取的网页信息的属性对应的正则表达式和针对上述正则表达式的运算式;或
[0029]具体用于根据预设的表达式生成规则,获得要提取的网页信息的属性对应的正则表达式;根据预设的运算式生成规则,获得针对上述正则表达式的运算式。
[0030]在本发明的一种具体实现方式中,所述运算式中使用的运算符号为预定义的符号。
[0031]由以上可见,本发明实施例提供的方案中,获得目标网页的源代码后,获得要提取的网页信息的属性对应的正则表达式和针对上述正则表达式的运算式,并根据所获得的正则表达式和运算式,从目标网页的源代码中提取网页信息。与现有技术相比,本发明实施例提供的方案中,由于运算式表达的是所获得的正则表达式中的至少两个正则表达式之间的逻辑运算关系和算术运算关系,经该运算式变换后,相当于在提取网页信息时直接对所提取的网页信息进行了过滤处理,因此,能够减少所提取的网页信息中包含的冗余信息或者包含的错误信息,无需对所获得的网页信息进行二次处理即可获得较为精确的网页信息,能够提尚用户体验。
【附图说明】
[0032]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0033]图1为本发明实施例提供的一种网页信息提取方法的流程示意图;
[0034]图2为本发明实施例提供的另一种网页信息提取方法的流程示意图;
[0035]图3为本发明实施例提供的一种网页信息提取装置的结构示意图;
[0036]图4为本发明实施例提供的另一种网页信息提取装置的结构示意图。
【具体实施方式】
[0037]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0038]图1为本发明实施例提供的一种网页信息提取方法的流程示意图,该方法包括:
[0039]SlOl:获得目标网页的源代码。
[0040]网页的源代码一般是以超文本标记语言(HyperText Mark-up Language,HTML)编写的,由HTML命令组成,其中,HTML命令可用于说明文字、图形、动画、声音、表格和链接等等。
[0041]S102:获得要提取的网页信息的属性对应的正则表达式和针对上述正则表达式的运算式。
[0042]上述的正则表达式,又称正规表示法、常规表示法,属于计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些符合某个模式的文本。如“〃~\d+$”,可以匹配所有的非负整数。
[0043]上述的运算式表达了所获得的正则表达式中至少两个正则表达式之间的逻辑运算关系和算术运算关系等,描述运算式所需要的运算符号可以是自定义的符号,也可以是已有的运算符号,本申请并不对此进行限定。
[0044]其中,运算符号可以是算术运算符号、逻辑运算符号,也可以是关系运算符号等等。
[0045]具体的,获得要提取的网页信息的属性对应的正则表达式和针对上述正则表达式的运算式,可以是根据用户的输入信息,获得要提取的网页信息的属性对应的正则表达式和针对上述正则表达式的运算式;还可以是根据预设的表达式生成规则,获得要提取的网页信息的属性对应的正则表达式,并根据预设的运算式生成规则,获得针对上述正则表达式的运算式。
[0046]S103:根据所获得的正则表达式和运算式,从目标网页的源代码中提取网页信息。
[0047]一种具体实现方式中,根据所获得的正则表达式和运算式,从目标网页的源代码中提取网页信息,可以先根据所获得的正则表达和运算式,确定所获得的正则表达式和运算式对应的逆波兰表达式,再根据所确定的逆波兰表达式,从目标网页的源代码中提取网页信息。
[0048]在通常的表达式中,二元运算符总是置于与之相关的两个运算对象之间,所以,这种表示法也称为中缀表示。与上述的表示表达式的方式相对应,波兰逻辑学家J.Lukasiewicz于1929年提出了另一种表示表达式的方法,这种方法中,每一运算符都置于其运算对象之后,称为后缀表示,以后缀表示法表示的表达式称为逆波兰表达式。逆波兰表达式是一种十分有用的表达式,它将复杂的表达式转换为可以依靠简单的操作得到计算结果的表达式,例如,通常的表达式:(a+b)*(c+d)转换为逆波兰表达式为:ab+cd+*。
[0049]运算式表达了所获得的正则表达式中至少两个正则表达式之间的逻辑运算关系和算术运算关系,下面通过几个具体实例说明运算式与正则表达式之间的关系。
[0050]实例一:运算式表示对若干个正则表达式的结果的合并操作。
[0051]假设,根据正则表达式I从目标网页的源代码中获得的网页信息为“5”,根据正则表达式2从目标网页的源代码中获得的网页信息为“4”,则经过本实例中的运算式规定的合并操作处理后,得“9”。
[0052]本实例中的合并操作运算符可以用“ + ”表示,当然,也可以以用户自定义的其他符号表不。
[0053]实例二:运算式表示对若干个正则表达式的结果的“或”操作。
[0054]假设,根据正则表达式3从目标网页的源代码中获得的网页信息为“abc”,根据正则表达式4从目标网页的源代码中获得的网页信息为“cde”,则经过本实例中的运算式规定的“或”操
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1