基于文字识别检测可疑钓鱼网页的方法及装置制造方法
【专利摘要】本发明公开了一种基于文字识别检测可疑钓鱼网页的方法,包括:对浏览器打开的网页进行截图,获取网页图片;将所述网页图片进行识别处理,得到所述网页图片中的文字;将所述网页图片中的文字作为匹配输入项,通过将所述匹配输入项与预设规则进行匹配,检测所述网页是否为可疑钓鱼网页。本实施例采用对网页进行截图,然后识别网页图片中的文字,利用识别出的文字检测网页是否为可疑钓鱼的方法,能够避免网页内容仅包含图片时,无法利用文字检测网页是否为可疑钓鱼网页的缺陷,其检测范围更大。
【专利说明】基于文字识别检测可疑钓鱼网页的方法及装置
【技术领域】
[0001] 本发明涉及互联网【技术领域】,具体涉及一种基于文字识别检测可疑钓鱼网页的方 法及装置。
【背景技术】
[0002] 随着互联网的发展,基于WEB的应用日益普及,人们通过浏览器可以查询银行账 户、网上购物、电子商务、查询信息、获取知识、进行娱乐等,WEB为人们提供了方便和快捷的 交互方式。然而,人们在上网冲浪浏览网页的同时,经常会遭遇到恶意网站的侵袭,导致计 算机被病毒、木马等感染。
[0003] 恶意网站,例如钓鱼网站、或者是欺诈,仿冒网站等,主要是通过仿冒真实网站的 URL地址或是网页内容,伪装成银行及电子商务等类型的网站,或是利用真实网站服务器程 序上的漏洞,在该网站的某些网页中插入危险的网页代码,以此来骗取用户银行或信用卡 账号、密码等私人资料。恶意网页中包含着许多敏感的特征,例如,金融欺诈类的恶意网页 会在文字、图片等方面仿冒官网,或是在真实网页中插入虚假票务、虚假中奖、假冒网银、虚 假购物等信息,这些特征大多以文本串的形式出现在网页中。
[0004] 现有的为了防范恶意网站的主要手段是当用户访问某网站时,客户端将网站的 URL发送至服务器端的黑白名单数据库进行查询,然而由于钓鱼网站不断更新换代,这种方 法对钓鱼网站等恶意网站的检出率不高并具有滞后性。或者是通过提取页面中关键词,并 将关键词上传至服务器,在黑名单数据库中匹配,这种方法效率比较低下,而且容易受文字 顺序等因素的影响,误判率较高,并且在网页内容只包含图片时无法进行检测。
【发明内容】
[0005] 鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上 述问题的基于文字识别检测可疑钓鱼网页的方法和相应的基于文字识别检测可疑钓鱼网 页的装置。
[0006] 根据本发明的一个方面,提供了一种基于文字识别检测可疑钓鱼网页的方法,包 括:
[0007] 对浏览器打开的网页进行截图,获取网页图片;
[0008] 将所述网页图片进行识别处理,得到所述网页图片中的文字;
[0009] 将所述网页图片中的文字作为匹配输入项,通过将所述匹配输入项与预设规则进 行匹配,检测所述网页是否为可疑钓鱼网页。
[0010] 根据本发明的另一方面,提供了一种基于文字识别检测可疑钓鱼网页的装置,包 括:
[0011] 网页图片获取模块,适于对浏览器打开的网页进行截图,获取网页图片;
[0012] 文字识别模块,适于将所述网页图片进行识别处理,得到所述网页图片中的文 字;
[0013] 匹配模块,适于将所述网页图片中的文字作为匹配输入项,通过将所述匹配输入 项与预设规则进行匹配,检测所述网页是否为可疑钓鱼网页。
[0014] 根据本发明的提供的方案,对浏览器打开的网页进行截图,获取网页图片;将网页 图片进行识别处理,得到网页图片中的文字;将网页图片中的文字作为匹配输入项,通过将 匹配输入项与预设规则进行匹配,检测网页是否为可疑钓鱼网页。本实施例采用对网页进 行截图,然后识别网页图片中的文字,利用识别出的文字检测网页是否为可疑钓鱼的方法, 能够避免网页内容仅包含图片时,无法利用文字检测网页是否为可疑钓鱼网页的缺陷,其 检测范围更大。
[0015] 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段, 而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够 更明显易懂,以下特举本发明的【具体实施方式】。
【专利附图】
【附图说明】
[0016] 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通 技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明 的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0017] 图1示出了根据本发明一个实施例的基于文字识别检测可疑钓鱼网页的方法的 流程图;
[0018] 图2示出了根据本发明的另一个实施例的基于文字识别检测可疑钓鱼网页的方 法的流程图;
[0019] 图3示出了根据本发明的又一个实施例的基于文字识别检测可疑钓鱼网页的方 法的流程图;
[0020] 图4示出了根据本发明的又一个实施例的基于文字识别检测可疑钓鱼网页的方 法的流程图;
[0021] 图5示出了根据本发明一个实施例的基于文字识别检测可疑钓鱼网页的装置的 结构框图;
[0022] 图6示出了根据本发明另一个实施例的基于文字识别检测可疑钓鱼网页的装置 的结构框图。
【具体实施方式】
[0023] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开 的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例 所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围 完整的传达给本领域的技术人员。
[0024] 图1示出了根据本发明的一个实施例的基于文字识别检测可疑钓鱼网页的方法 的流程图。如图1所示,该方法包括以下步骤:
[0025] 步骤S100,对浏览器打开的网页进行截图,获取网页图片。
[0026] 浏览器打开的网页指用户通过客户端的浏览器打开的网页,其中客户端可以为计 算机、移动终端、平板设备等,本发明对此不做限制。每个网页都对应一 URL(统一资源定位 符),服务器在获取到用户访问的网页的URL之后,显示该URL对应的网页并进行截图,获取 网页图片,其中网页图片的内容与用户在客户端通过浏览器打开的网页的内容相同。
[0027] 步骤S110,将网页图片进行识别处理,得到网页图片中的文字。
[0028] 网页一般都会包含文字与图片,因此所获取的网页图片会包含网页中的文字与图 片,在获取网页图片之后,对网页图片进行识别处理,得到网页图片中的文字。
[0029] 步骤S120,将网页图片中的文字作为匹配输入项,通过将匹配输入项与预设规则 进行匹配,检测网页是否为可疑钓鱼网页。
[0030] 这里的匹配输入项是指与预设规则进行匹配时的来源项,其与预设规则中设定的 参考项进行匹配,该匹配输入项是动态变化的,其取决于网页图片中的文字。预设规则定义 了匹配输入项需要满足的条件,若匹配输入项满足条件,则可判断网页为可疑钓鱼网页;若 匹配输入项不满足条件,则可判断网页不是可疑钓鱼网页。
[0031] 根据本发明上述实施例提供的方法,对浏览器打开的网页进行截图,获取网页图 片;将网页图片进行识别处理,得到网页图片中的文字;将网页图片中的文字作为匹配输 入项,通过将匹配输入项与预设规则进行匹配,检测网页是否为可疑钓鱼网页。本实施例采 用对网页进行截图,然后识别网页图片中的文字,利用识别出的文字检测网页是否为可疑 钓鱼的方法,能够避免网页内容仅包含图片时,无法利用文字检测网页是否为可疑钓鱼网 页的缺陷,其检测范围更大。
[0032] 图2示出了根据本发明的另一个实施例的基于文字识别检测可疑钓鱼网页的方 法的流程图。如图2所示,该方法包括以下步骤:
[0033] 步骤S200,对多个样本图片进行分类,得到每一分类下的至少一个样本图片。 [0034] 具体地,对多个已知的钓鱼网页进行截图,将截取的图片作为样本图片,然后按照 网站的类型将多个样本图片进行分类,例如按照淘宝网、网游交易、中奖、招聘兼职的分类 方法对样本图片进行分类,得到每一分类下的至少一个样本图片。本领域技术人员可以根 据实际应用的需要选择合适的分类标准,此处不做具体限定。
[0035] 步骤S210,对于每一分类,截取该分类下各个样本图片中的文字区域块。
[0036] 具体地,文字区域块是从样本图片中截取的具有文字的图片,该图片的尺寸小于 样本图片的尺寸。可选地,采取人工方式从按照上述分类的样本图片中截取文字区域块。
[0037] 步骤S220,从文字区域块中提取出文字作为该分类的训练样本集。
[0038] 在得到文字区域块后,提取出文字区域块中的文字,将提取出的文字作为每一分 类的训练样本集。
[0039] 步骤S230,基于训练样本集进行训练,得到该分类对应的文字识别库。
[0040] 对于后续的某一分类下的网页,按照与步骤S200-步骤S220类似的方法截取网 页图片,并从中提取出文字,基于训练样本集对提取出的文字进行逐字训练,并将训练后的 文字添加到样本集中,最终得到每一分类对应的文字识别库。以提取出的文字为"淘宝网" 举例,基于淘宝网分类下的训练样本集,分别对淘、宝、网三个字进行训练,待训练结束后将 淘、宝、网三个字添加到淘宝网分类下的训练样本集,经过大量的训练得到该分类对应的文 字识别库。
[0041] 上述步骤S200-步骤S230为基于已知的钓鱼网页构建各个分类对应的文字识别 库的过程,根据构建的文字识别库就可以对浏览器打开的网页进行识别,参见如下步骤。需 要说明的是,本实施例不仅限于采用上述方法构建文字识别库,也可以采用其它方法,例如 不进行分类直接统一进行样本训练得到文字识别库。
[0042] 步骤S240,对浏览器打开的网页进行截图,获取网页图片。
[0043] 浏览器打开的网页指用户通过客户端的浏览器打开的网页,其中客户端可以为计 算机、移动终端、平板设备等,本发明对此不做限制。每个网页都对应一 URL,服务器在获取 到用户访问的网页的URL之后,显示该URL对应的网页并进行截图,获取网页图片,其中网 页图片的内容与用户在客户端通过浏览器打开的网页的内容相同。
[0044] 步骤S250,查找网页图片中的文字区域块。
[0045] 可选地,本实施例利用swt (平稳小波变换)算法查找网页图片中的文字部分,确 定文字区域块。具体地,向swt算法库输入网页图片;获取swt算法库输出的坐标参数;根 据坐标参数截取网页图片中的文字区域块。即,将所获取的网页图片发送给swt算法库,经 swt算法分析计算得到网页图片中文字部分的坐标,服务器获取计算得到的坐标参数,根据 该坐标参数从网页图片中截取文字区域块。
[0046] 步骤S260,基于各个分类对应的文字识别库,将网页图片中的文字区域块进行光 学字符识别处理,得到网页图片中的文字,将网页图片中的文字作为一项匹配输入项。
[0047] 具体地,光学字符识别是一种通过对图像文件进行分析处理,获取其中文字信息 的技术。对网页图片中的文字区域进行光学字符识别处理后,得到文字图形,将所得到的文 字图形与各个分类对应的文字识别库进行比对,当所得到的文字图形命中文字识别库中的 文字时,则确定网页图片中的文字。由于文字识别库是与类别对应的,因此本步骤在识别出 网页图片中的文字的同时,也能识别出网页所属的类别。
[0048] 本文中匹配输入项是指与预设规则进行匹配时的来源项,其与预设规则中设定的 参考项进行匹配。本实施例的匹配输入项为多项,其中网页图片中的文字是其中一项。
[0049] 步骤S270,获取网页所属站点在预设时间段内的利记体育,将利记体育作为另一项匹 配输入项。
[0050] 具体地,获取网页所属站点在预设时间段内的利记体育主要是来判断网页所属站点 是否为新站。服务器可以通过浏览器访问网页的记录来获取网页所属站点被访问的情况。 以预设时间段为1个月为例,服务器获取1个月内网页的访问记录,根据该网页的访问记录 的个数来确定网页所属站点在1个月内的利记体育。
[0051] 步骤S280,判断网页图片中的文字是否包含关键字,以及判断利记体育是否小于预 设值,若网页图片中的文字包含关键字且利记体育小于预设值,则执行步骤S290 ;若网页图 片中的文字不包含关键字和/或利记体育大于预设值,则方法结束。
[0052] 本步骤具体为将上述匹配输入项与预设规则进行匹配。这里预设规则包括:文字 中包含敏感关键字以及网页所属站点为新站点。敏感关键字可以是淘宝网、网游交易、中 奖、招聘兼职等。利记体育的预设值设置为100次/月,将利记体育小于预设值100次/月的站 点定义为新站。该预设值是根据多个用户访问网页的记录进行设定的,本领域技术人员可 以根据需要自行设置该预设值,此处不做具体限定。具体地,在步骤S260和步骤S270中, 将网页图片中的文字和网页所属站点的利记体育确定为匹配输入项,在本步骤中则需要对网 页图片中的文字与网页所属站点的利记体育进行判断,判断网页图片中的文字是否包含敏感 关键字,利记体育是否小于预设值100次/月。
[0053] 步骤S290,检测出网页为可疑钓鱼网页。
[0054] 在判断出网页包含诸如淘宝网、网游交易、中奖、招聘兼职等敏感关键字,且网页 所属站点的利记体育小于预设值1〇〇次/月,即网页所属站点为新站后,则判断网页为可疑钓 鱼网页。
[0055] 根据本实施例提供的方法,对多个样本图片进行分类,得到每一分类下的至少一 个样本图片;对于每一分类,截取该分类下各个样本图片中的文字区域块;从文字区域块 中提取出文字作为该分类的训练样本集;基于训练样本集进行训练,得到该分类对应的文 字识别库;对浏览器打开的网页进行截图,获取网页图片;查找网页图片中的文字区域块; 基于各个分类对应的文字识别库,将网页图片中的文字区域块进行光学字符识别处理,得 到网页图片中的文字;将网页图片中的文字作为匹配输入项与预设规则进行匹配;获取网 页所属站点在预设时间段内的利记体育,将利记体育作为匹配输入项与预设规则进行匹配;判 断网页图片中的文字是否包含关键字,以及判断利记体育是否小于预设值,若网页图片中的 文字包含关键字且利记体育小于预设值,则检测网页为可疑钓鱼网页。本实施例中,通过查找 网页图片中的文字区域块,可以缩小后续识别文字范围,提高了识别准确率,使得文字识别 质量不仅仅依赖于光学字符识别的结果,基于已有网页建立文字识别库,并根据该文字识 别库对网页图片中的文字进行识别,提高了识别准确率;通过用户的访问记录可以方便的 统计网页所属站点的利记体育,该过程既快速又方便,将判断网页所属站点的利记体育是否小 于预设值与网页图片中的文字是否包含关键字两种检测规则结合,降低了误报率。
[0056] 上述实施例通过检测文字中是否包含关键字以及网页所属站点是否为新站来检 测网页是否为可疑钓鱼网页,本发明不仅限于此,还可以通过其他方法来检测网页是否为 可疑钓鱼网页。在下面的实施例中,均基于上述实施例所描述的文字识别库来进行检测识 另IJ,文字识别库的建立过程不再赘述。
[0057] 图3示出了根据本发明的又一个实施例的基于文字识别检测可疑钓鱼网页的方 法的流程图。如图3所示,该方法包括以下步骤:
[0058] 步骤S300,对浏览器打开的网页进行截图,获取网页图片。
[0059] 浏览器打开的网页指用户通过客户端的浏览器打开的网页,其中客户端可以为计 算机、移动终端、平板设备等,本发明对此不做限制。每个网页都对应一 URL,服务器在获取 到用户访问的网页的URL之后,显示该URL对应的网页并进行截图,获取网页图片,其中网 页图片的内容与用户在客户端通过浏览器打开的网页的内容相同。
[0060] 步骤S310,查找网页图片中的文字区域块。
[0061] 可选地,本实施例利用swt (平稳小波变换)算法查找网页图片中的文字部分,确 定文字区域块。具体地,向swt算法库输入网页图片;获取swt算法库输出的坐标参数;根 据坐标参数截取网页图片中的文字区域块。即,将所获取的网页图片发送给swt算法库,经 swt算法分析计算得到网页图片中文字部分的坐标,服务器获取计算得到的坐标参数,根据 该坐标参数从网页图片中截取文字区域块。
[0062] 步骤S320,基于各个分类对应的文字识别库,将网页图片中的文字区域块进行光 学字符识别处理,得到网页图片中的文字,将网页图片中的文字作为一项匹配输入项。
[0063] 具体地,光学字符识别是一种通过对图像文件进行分析处理,获取其中文字信息 的技术。对网页图片中的文字区域进行光学字符识别处理后,得到文字图形,将所得到的文 字图形与各个分类对应的文字识别库进行比对,当所得到的文字图形命中文字识别库中的 文字时,则确定网页图片中的文字。由于文字识别库是与类别对应的,因此本步骤在识别出 网页图片中的文字的同时,也能识别出网页所属的类别。
[0064] 本文中匹配输入项是指与预设规则进行匹配时的来源项,其与预设规则中设定的 参考项进行匹配。本实施例的匹配输入项为多项,其中网页图片中的文字是其中一项。 [0065] 步骤S330,获取网页所属站点的信息,将网页所属站点的信息作为另一项匹配输 入项。
[0066] 具体地,获取网页所属站点的信息,通过判断网页所属站点的信息是否具有企业 备案信息来判断网页所属站点是否为企业备案的站点。网站信息可在网站查询服务器上查 询。
[0067] 步骤S340,判断网页图片中的文字是否包含关键字,以及判断网页所属站点是否 具有企业备案信息,若网页图片中的文字包含关键字且网页所属站点不具有企业备案信 息,则执行步骤S350 ;若网页图片中的文字不包含关键字和/或网页所属站点具有企业备 案信息,则方法结束。
[0068] 本步骤具体为将上述匹配输入项与预设规则进行匹配。这里预设规则包括:文字 中包含敏感关键字、网页所属站点为非企业备案的站点。这里的关键字是敏感关键字,例如 淘宝网、网游交易、中奖、招聘兼职等。
[0069] 步骤S350,检测出网页为可疑钓鱼网页。
[0070] 在判断出网页包含诸如淘宝网、网游交易、中奖、招聘兼职等敏感关键字,且网页 所属站点不具有企业备案信息,即网页所属站点为非企业备案的站点后,则判断网页为可 疑钓鱼网页。
[0071] 此外,还可通过图2与图3所示实施例结合的方法,即通过判断文字中是否包含转 载关键字、网页所属站点的利记体育是否小于预设值以及网页所属站点是否具有企业备案信 息来检测网页是否为可疑钓鱼网页,在此不再赘述。
[0072] 根据本实施例提供的方法,通过查找网页图片中的文字区域块,可以缩小后续识 别文字范围,提高了识别准确率,使得文字识别质量不仅仅依赖于光学字符识别的结果,基 于已有网页建立文字识别库,并根据该文字识别库对网页图片中的文字进行识别,提高了 识别准确率;通过检测网页所属站点是否具有企业备案信息以及网页图片中的文字是否包 含关键字来检测网页是否为可疑钓鱼网页,降低了误报率。
[0073] 图4示出了根据本发明的又一个实施例的基于文字识别检测可疑钓鱼网页的方 法的流程图。如图4所示,该方法包括以下步骤:
[0074] 步骤S400,对浏览器打开的网页进行截图,获取网页图片。
[0075] 浏览器打开的网页指用户通过客户端的浏览器打开的网页,其中客户端可以为计 算机、移动终端、平板设备等,本发明对此不做限制。每个网页都对应一 URL,服务器在获取 到用户访问的网页的URL之后,显示该URL对应的网页并进行截图,获取网页图片,其中网 页图片的内容与用户在客户端通过浏览器打开的网页的内容相同。
[0076] 步骤S410,查找网页图片中的文字区域块。
[0077] 可选地,本实施例利用swt (平稳小波变换)算法查找网页图片中的文字部分,确 定文字区域块。具体地,向swt算法库输入网页图片;获取swt算法库输出的坐标参数;根 据坐标参数截取网页图片中的文字区域块。即,将所获取的网页图片发送给swt算法库,经 swt算法分析计算得到网页图片中文字部分的坐标,服务器获取计算得到的坐标参数,根据 该坐标参数从网页图片中截取文字区域块。
[0078] 步骤S420,基于各个分类对应的文字识别库,将网页图片中的文字区域块进行光 学字符识别处理,得到网页图片中的文字,将网页图片中的文字作为一项匹配输入项。
[0079] 具体地,光学字符识别是一种通过对图像文件进行分析处理,获取其中文字信息 的技术。对网页图片中的文字区域进行光学字符识别处理后,得到文字图形,将所得到的文 字图形与各个分类对应的文字识别库进行比对,当所得到的文字图形命中文字识别库中的 文字时,则确定网页图片中的文字。由于文字识别库是与类别对应的,因此本步骤在识别出 网页图片中的文字的同时,也能识别出网页所属的类别。
[0080] 本文中匹配输入项是指与预设规则进行匹配时的来源项,其与预设规则中设定的 参考项进行匹配。本实施例的匹配输入项为多项,其中网页图片中的文字是其中一项。
[0081] 步骤S430,采用基于URL和/或IP和/或网页内容进行识别的方法对所述网页进 行识别,将识别结果作为另一项匹配输入项。
[0082] 步骤S440,结合所述网页图片中的文字是否包含关键字的判断结果以及所述识别 结果,检测所述网页是否为可疑钓鱼网页。
[0083] 下面详细介绍结合网页图片中的文字是否包含关键字的判断结果以及三种网页 识别方法的结果,论述网页是否为可疑钓鱼网页:
[0084] 首先介绍基于URL识别,判断用户访问的网页的URL是否属于本地黑/白名单,将 判断的结果作为匹配输入项,若判断用户访问的网页的URL属于本地黑名单,不论网页图 片中的文字是否包含关键字,网页都为可疑钓鱼网页;若判断用户访问的网页的URL属于 本地白名单,不论网页图片中的文字是否包含关键字,网页都不是可疑钓鱼网页。
[0085] 其次介绍基于IP识别,判断用户访问的网页的URL是否属于高危域名或高危IP, 将判断的结果作为匹配输入项,若判断用户访问的网页的URL属于高危域名或高危IP, 且网页图片中的文字包含关键字,则检测网页为可疑钓鱼网页;若判断用户访问的网页的 URL不属于高危域名或高危IP,不论网页图片中的文字是否包含关键字,网页都不是可疑 钓鱼网页。
[0086] 最后介绍基于网页内容识别,基于网页内容识别方法可以为以下两种:
[0087] 〈1> :在访问网页加载完成后,提取网页的多个网页元素,其中,网页元素可以是页 面上的文本内容按特定的编码转换后的二进制编码数据;获取每个网页元素对应的特征 ID,其中网页元素与特征ID唯一对应;将多个网页元素对应的特征ID与特征库中的特征 ID进行匹配,其中,特征库由服务器生成,是大量的钓鱼网页中的恶意网页元素对应的特征 ID的集合;若多个网页元素对应的特征ID中具有与特征库中的特征ID匹配的至少一个特 征ID,则根据网页的信息,计算网页的评估分;将网页的评估分与设定阈值进行比较,将比 较的结果作为匹配输入项,若网页的评估分高于设定阈值,且网页图片中的文字包含关键 字,则检测网页为可疑钓鱼网页;若网页的评估分低于设定阈值,不论网页图片中的文字是 否包含关键字,网页都不是可疑钓鱼网页。
[0088] 〈2>:在浏览器的网页事件加载完成后,提取网页的多个网页元素,其中,网页元素 可以是页面上的文本内容按特定的编码转换后的二进制编码数据;获取每个网页元素对应 的特征ID,其中网页元素与特征ID唯一对应;将多个网页元素对应的特征ID与特征库中 的特征ID进行匹配,其中,特征库由服务器生成,是大量的钓鱼网页中的恶意网页元素对 应的特征ID的集合;若多个网页元素对应的特征ID中具有与特征库中的特征ID匹配的至 少一个特征ID,则将该匹配的至少一个特征ID进行组合计算得到至少一个模板ID,其中, 模板ID可以是通过特定的快速哈希算法生成的定长的二进制数据,例如,通过MD5算法生 成的64位的二进制串,与特征ID类似地,不同特征ID按照相同的顺序组合,按照相同的算 法计算得到的模板ID是唯一的并且是不可逆的;将至少一个模板ID与钓鱼网页识别库中 的模板ID进行匹配,将匹配的结果作为匹配输入项,若至少一个模板ID中具有与钓鱼网页 识别库中的模板ID匹配的模板ID,且网页图片中的文字为关键字,则检测网页为可疑钓鱼 网页;若至少一个模板ID中不具有与钓鱼网页识别库中的模板ID匹配的模板ID,不论网 页图片中的文字是否包含关键字,网页都不是可疑钓鱼网页。
[0089] 根据本发明上述实施例提供的装置,通过查找网页图片中的文字区域块,可以缩 小后续识别文字范围,提高了识别准确率,使得文字识别质量不仅仅依赖于光学字符识别 的结果,基于已有网页建立文字识别库,并根据该文字识别库对网页图片中的文字进行识 另IJ,提高了识别准确率;结合网页图片中是否包含关键字的判断结果以及基于URL和/或 IP和/或网页内容进行识别的装置对网页进行识别的识别结果,降低了误报率,加快了检 测速度。
[0090] 图5示出了根据本发明一个实施例的基于文字识别检测可疑钓鱼网页的装置的 结构框图。如图5所示,该装置包括:网页图片获取模块500、文字识别模块510、匹配模块 520。
[0091] 网页图片获取模块500,适于对浏览器打开的网页进行截图,获取网页图片。
[0092] 浏览器打开的网页指用户通过客户端的浏览器打开的网页,其中客户端可以为计 算机、移动终端、平板设备等,本发明对此不做限制。每个网页都对应一 URL(统一资源定位 符),服务器在获取到用户访问的网页的URL之后,显示该URL对应的网页并进行截图,获取 网页图片,其中网页图片的内容与用户在客户端通过浏览器打开的网页的内容相同。
[0093] 文字识别模块510,适于将网页图片进行识别处理,得到网页图片中的文字。
[0094] 网页一般都会包含文字与图片,因此所获取的网页图片会包含网页中的文字与图 片,在获取网页图片之后,对网页图片进行识别处理,得到网页图片中的文字。
[0095] 匹配模块520,适于将网页图片中的文字作为匹配输入项,通过将匹配输入项与预 设规则进行匹配,检测网页是否为可疑钓鱼网页。
[0096] 这里的匹配输入项是指与预设规则进行匹配时的来源项,其与预设规则中设定的 参考项进行匹配,该匹配输入项是动态变化的,其取决于网页图片中的文字。预设规则定义 了匹配输入项需要满足的条件,若匹配输入项满足条件,则可判断网页为可疑钓鱼网页;若 匹配输入项不满足条件,则可判断网页不是可疑钓鱼网页。
[0097] 根据本发明上述实施例提供的装置,对浏览器打开的网页进行截图,获取网页图 片;将网页图片进行识别处理,得到网页图片中的文字;将网页图片中的文字作为匹配输 入项,通过将匹配输入项与预设规则进行匹配,检测网页是否为可疑钓鱼网页。本实施例采 用对网页进行截图,然后识别网页图片中的文字,利用识别出的文字检测网页是否为可疑 钓鱼的方法,能够避免网页内容仅包含图片时,无法利用文字检测网页是否为可疑钓鱼网 页的缺陷,其检测范围更大。
[0098] 图6示出了根据本发明另一个实施例的基于文字识别检测可疑钓鱼网页的装置 的结构框图。如图6所示,该装置包括:分类模块600、截取模块610、提取模块620、训练模 块630、文字识别库640、网页图片获取模块650、文字识别模块660、匹配模块670。
[0099] 分类模块600,适于对多个样本图片进行分类,得到每一分类下的至少一个样本图 片。
[0100] 具体地,对多个不同网页进行截图,将截取的图片作为样本图片,对多个样本图片 按照网站的类型进行分类,例如按照淘宝网、网游交易、招聘兼职的分类方法对样本图片进 行分类,得到每一分类下的至少一个样本图片。本领域技术人员可以根据实际应用的需要 选择合适的分类标准,此处不做具体限定。
[0101] 截取模块610,适于对于每一分类,截取该分类下各个样本图片中的文字区域块。
[0102] 具体地,文字区域块是从样本图片中截取的具有文字的图片,该图片的尺寸小于 样本图片的尺寸。相关人员利用鼠标从按照上述分类的样本图片中截取文字区域块。
[0103] 提取模块620,适于从文字区域块中提取出文字作为该分类的训练样本集。
[0104] 在得到文字区域块后,提取出文字区域块中的文字,将提取出的文字作为每一分 类的训练样本集。
[0105] 训练模块630,适于基于训练样本集进行训练。
[0106] 文字识别库640,适于存储训练后的文字。
[0107] 网页图片获取模块650,适于对浏览器打开的网页进行截图,获取网页图片。
[0108] 浏览器打开的网页指用户通过客户端的浏览器打开的网页,其中客户端可以为计 算机、移动终端、平板设备等,本发明对此不做限制。每个网页都对应一 URL(统一资源定位 符),服务器在获取到用户访问的网页的URL之后,显示该URL对应的网页并进行截图,获取 网页图片,其中网页图片的内容与用户在客户端通过浏览器打开的网页的内容相同。
[0109] 文字识别模块660,适于将网页图片进行识别处理,得到网页图片中的文字。
[0110] 文字识别模块660进一步包括:查找单元710,适于查找网页图片中的文字区域 块。
[0111] 具体地,利用swt算法查找网页图片中的文字部分,确定文字区域块。其中,查找 单元490进一步包括:输入单元730,适于向swt算法库输入网页图片。
[0112] 获取单元740,适于获取swt算法库输出的坐标参数。
[0113] 截取单元750,适于根据坐标参数截取网页图片中的文字区域块。
[0114] 文字识别单元720,适于将网页图片中的文字区域块进行光学字符识别处理,得到 网页图片中的文字。具体地,将所获取的网页图片发送给swt算法库,经swt算法分析计算 得到网页图片中文字部分的坐标,服务器获取计算得到的坐标参数,根据该坐标参数从网 页图片中截取文字区域块。
[0115] 其中,文字识别单元720具体适于:基于各个分类对应的文字识别库,将网页图片 中的文字区域块进行光学字符识别处理,得到所述网页图片中的文字。
[0116] 具体地,光学字符识别是一种通过对图像文件进行分析处理,获取其中文字信息 的技术。对网页图片中的文字区域进行光学字符识别处理后,得到文字图形,将所得到的文 字图形与各个分类对应的文字识别库进行比对,当所得到的文字图形命中文字识别库中的 文字时,则确定网页图片中的文字。
[0117] 匹配模块670,适于将网页图片中的文字作为匹配输入项,通过将匹配输入项与预 设规则进行匹配,检测网页是否为可疑钓鱼网页。
[0118] 该装置还包括:利记体育获取模块680,适于获取网页所属站点在预设时间段内的 利记体育,将利记体育作为匹配输入项。
[0119] 具体地,获取网页所属站点在预设时间段内的利记体育主要是来判断网页所属站点 是否为新站。服务器可以通过浏览器访问网页的记录来获取网页所属站点被访问的情况。 以预设时间段为1个月为例,服务器获取1个月内网页的访问记录,根据该网页的访问记录 的个数来确定网页所属站点在1个月内的利记体育。
[0120] 匹配模块670具体适于:判断网页图片中的文字是否包含关键字,以及判断访问 量是否小于预设值;若判断网页图片中的文字包含关键字且利记体育小于预设值,则检测出 网页为可疑钓鱼网页。
[0121] 该装置还包括:备案信息获取模块690,适于获取所述网页所属站点的备案信息, 将所述备案信息作为匹配输入项。
[0122] 所述匹配模块670具体适于:判断所述网页图片中的文字是否包含关键字,以及 判断所述网页所属站点是否具有企业备案信息;若判断所述网页图片中的文字包含关键字 且所述网页所属站点不具有企业备案信息,则检测出所述网页为可疑钓鱼网页。
[0123] 该装置还包括:网页识别模块700,适于采用基于URL和/或IP和/或网页内容 进行识别的装置对所述网页进行识别,将识别结果作为匹配输入项;
[0124] 所述匹配模块670进一步适于:结合所述网页图片中的文字是否包含关键字的判 断结果以及所述识别结果,检测所述网页是否为可疑钓鱼网页。匹配模块670的检测方式 可以参见方法实施例的描述。
[0125] 根据本发明上述实施例提供的装置,对多个样本图片进行分类,得到每一分类下 的至少一个样本图片;对于每一分类,截取该分类下各个样本图片中的文字区域块;从文 字区域块中提取出文字作为该分类的训练样本集;基于训练样本集进行训练,得到该分类 对应的文字识别库;对浏览器打开的网页进行截图,获取网页图片;查找网页图片中的文 字区域块;基于各个分类对应的文字识别库,将网页图片中的文字区域块进行光学字符识 别处理,得到网页图片中的文字;将网页图片中的文字作为匹配输入项与预设规则进行匹 配;获取网页所属站点在预设时间段内的利记体育,将利记体育作为匹配输入项与预设规则进 行匹配;判断网页图片中的文字是否包含关键字,以及判断利记体育是否小于预设值,若网页 图片中的文字包含关键字且利记体育小于预设值,则检测网页为可疑钓鱼网页。本实施例中, 通过查找网页图片中的文字区域块,可以缩小后续识别文字范围,提高了识别准确率,使得 文字识别质量不仅仅依赖于光学字符识别的结果,基于已有网页建立文字识别库,并根据 该文字识别库对网页图片中的文字进行识别,提高了识别准确率;通过用户的访问记录可 以方便的统计网页所属站点的利记体育,该过程既快速又方便,将判断网页所属站点的访问 量是否小于预设值与网页图片中的文字是否包含关键字两种检测规则结合,或者将检测网 页所属站点是否具有企业备案信息以及网页图片中的文字是否包含关键字两种规则结合, 或者结合网页图片中是否包含关键字的判断结果以及基于URL和/或IP和/或网页内容进 行识别的装置对网页进行识别的识别结果,检测网页是否为可疑钓鱼网页,降低了误报率, 加快了检测速度。
[0126] 在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。 各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求 的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种 编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发 明的最佳实施方式。
[0127] 在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施 例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构 和技术,以便不模糊对本说明书的理解。
[0128] 类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在 上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施 例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保 护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面 的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此, 遵循【具体实施方式】的权利要求书由此明确地并入该【具体实施方式】,其中每个权利要求本身 都作为本发明的单独实施例。
[0129] 本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地 改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单 元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或 子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任 何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开 的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴 随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代 特征来代替。
[0130] 此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例 中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的 范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任 意之一都可以以任意的组合方式来使用。
[0131] 本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行 的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用 微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的基于文字识别检测可疑 钓鱼网页的设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执 行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机 程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或 者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或 者以任何其他形式提供。
[0132] 应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领 域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中, 不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词"包含"不排除存在 未列在权利要求中的元件或步骤。位于元件之前的单词"一"或"一个"不排除存在多个这 样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来 实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件 项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为 名称。
[0133] 本发明公开了 :A1、一种基于文字识别检测可疑钓鱼网页的方法,包括:
[0134] 对浏览器打开的网页进行截图,获取网页图片;
[0135] 将所述网页图片进行识别处理,得到所述网页图片中的文字;
[0136] 将所述网页图片中的文字作为匹配输入项,通过将所述匹配输入项与预设规则进 行匹配,检测所述网页是否为可疑钓鱼网页。
[0137] A2、根据A1所述的方法,所述将网页图片进行识别处理,得到所述网页图片中的 文字进一步包括:
[0138] 查找所述网页图片中的文字区域块;
[0139] 将所述网页图片中的文字区域块进行光学字符识别处理,得到所述网页图片中的 文字。
[0140] A3、根据A2所述的方法,所述查找网页图片中的文字区域块进一步包括:
[0141] 向swt算法库输入所述网页图片;
[0142] 获取所述swt算法库输出的坐标参数;
[0143] 根据所述坐标参数截取所述网页图片中的文字区域块。
[0144] A4、根据A1-A3任一项所述的方法,还包括:获取所述网页所属站点在预设时间段 内的利记体育,将所述利记体育作为匹配输入项;
[0145] 所述通过将所述匹配输入项与预设规则进行匹配,检测所述网页是否为钓鱼网页 进一步包括:
[0146] 判断所述网页图片中的文字是否包含关键字,以及判断所述利记体育是否小于预设 值;
[0147] 若所述网页图片中的文字包含关键字且所述利记体育小于预设值,则检测出所述网 页为可疑钓鱼网页。
[0148] A5、根据A1-A3任一项所述的方法,所述通过将所述匹配输入项与预设规则进行 匹配,检测所述网页是否为钓鱼网页进一步包括:
[0149] 判断所述网页图片中的文字是否包含关键字,以及判断所述网页所属站点是否具 有企业备案信息;
[0150] 若所述网页图片中的文字包含关键字且所述网页所属站点不具有企业备案信息, 则检测出所述网页为可疑钓鱼网页。
[0151] A6、根据A1-A3任一项所述的方法,还包括:采用基于URL和/或IP和/或网页内 容进行识别的方法对所述网页进行识别,将识别结果作为匹配输入项;
[0152] 所述通过将所述匹配输入项与预设规则进行匹配,检测所述网页是否为钓鱼网页 进一步包括:结合所述网页图片中的文字是否包含关键字的判断结果以及所述识别结果, 检测所述网页是否为可疑钓鱼网页。
[0153] A7、根据A2或A3所述的方法,在所述对浏览器打开的网页进行截图,获取网页图 片之前还包括:
[0154] 对多个样本图片进行分类,得到每一分类下的至少一个样本图片;
[0155] 对于每一分类,截取该分类下各个样本图片中的文字区域块,从文字区域块中提 取出文字作为该分类的训练样本集,基于所述训练样本集进行训练,得到该分类对应的文 字识别库。
[0156] A8、根据A6所述的方法,所述将网页图片中的文字区域块进行光学字符识别处 理,得到所述网页图片中的文字具体为:基于各个分类对应的文字识别库,将网页图片中的 文字区域块进行光学字符识别处理,得到所述网页图片中的文字。
[0157] 本发明还公开了:B9、一种基于文字识别检测可疑钓鱼网页的装置,包括:
[0158] 网页图片获取模块,适于对浏览器打开的网页进行截图,获取网页图片;
[0159] 文字识别模块,适于将所述网页图片进行识别处理,得到所述网页图片中的文 字;
[0160] 匹配模块,适于将所述网页图片中的文字作为匹配输入项,通过将所述匹配输入 项与预设规则进行匹配,检测所述网页是否为可疑钓鱼网页。
[0161] B10、根据B9所述的装置,所述文字识别模块进一步包括:
[0162] 查找单元,适于查找所述网页图片中的文字区域块;
[0163] 文字识别单元,适于将所述网页图片中的文字区域块进行光学字符识别处理,得 到所述网页图片中的文字。
[0164] B11、根据B10所述的装置,所述查找单元进一步包括:
[0165] 输入单元,适于向swt算法库输入所述网页图片;
[0166] 获取单元,适于获取所述swt算法库输出的坐标参数;
[0167] 截取单元,适于根据所述坐标参数截取所述网页图片中的文字区域块。
[0168] B12、根据B9-B11任一项所述的装置,还包括:利记体育获取模块,适于获取所述网 页所属站点在预设时间段内的利记体育,将所述利记体育作为匹配输入项;
[0169] 所述匹配模块具体适于:判断所述网页图片中的文字是否包含关键字,以及判断 所述利记体育是否小于预设值;若判断所述网页图片中的文字包含关键字且所述利记体育小于 预设值,则检测出所述网页为可疑钓鱼网页。
[0170] B13、根据B9-B11任一项所述的装置,还包括:备案信息获取模块,适于获取所述 网页所属站点的备案信息,将所述备案信息作为匹配输入项。
[0171] 所述匹配模块具体适于:判断所述网页图片中的文字是否包含关键字,以及判断 所述网页所属站点是否具有企业备案信息;若判断所述网页图片中的文字包含关键字且所 述网页所属站点不具有企业备案信息,则检测出所述网页为可疑钓鱼网页。
[0172] B14、根据B9-B11任一项所述的装置,还包括:网页识别模块,适于采用基于URL 和/或IP和/或网页内容进行识别的装置对所述网页进行识别,将识别结果作为匹配输入 项;
[0173] 所述匹配模块进一步适于:结合所述网页图片中的文字是否包含关键字的判断结 果以及所述识别结果,检测所述网页是否为可疑钓鱼网页。
[0174] B15、根据B10或B11所述的装置,还包括:
[0175] 分类模块,适于对多个样本图片进行分类,得到每一分类下的至少一个样本图 片;
[0176] 截取模块,适于对于每一分类,截取该分类下各个样本图片中的文字区域块;
[0177] 提取模块,适于从文字区域块中提取出文字作为该分类的训练样本集;
[0178] 训练模块,适于基于所述训练样本集进行训练,得到该分类对应的文字识别库。
[0179] B16、根据B14所述的装置,所述文字识别单元具体适于:基于各个分类对应的文 字识别库,将网页图片中的文字区域块进行光学字符识别处理,得到所述网页图片中的文 字。
【权利要求】
1. 一种基于文字识别检测可疑钓鱼网页的方法,包括: 对浏览器打开的网页进行截图,获取网页图片; 将所述网页图片进行识别处理,得到所述网页图片中的文字; 将所述网页图片中的文字作为匹配输入项,通过将所述匹配输入项与预设规则进行匹 配,检测所述网页是否为可疑钓鱼网页。
2. 根据权利要求1所述的方法,所述将网页图片进行识别处理,得到所述网页图片中 的文字进一步包括: 查找所述网页图片中的文字区域块; 将所述网页图片中的文字区域块进行光学字符识别处理,得到所述网页图片中的文 字。
3. 根据权利要求2所述的方法,所述查找网页图片中的文字区域块进一步包括: 向swt算法库输入所述网页图片; 获取所述swt算法库输出的坐标参数; 根据所述坐标参数截取所述网页图片中的文字区域块。
4. 根据权利要求1-3任一项所述的方法,还包括:获取所述网页所属站点在预设时间 段内的利记体育,将所述利记体育作为匹配输入项; 所述通过将所述匹配输入项与预设规则进行匹配,检测所述网页是否为钓鱼网页进一 步包括: 判断所述网页图片中的文字是否包含关键字,以及判断所述利记体育是否小于预设值; 若所述网页图片中的文字包含关键字且所述利记体育小于预设值,则检测出所述网页为 可疑钓鱼网页。
5. 根据权利要求1-3任一项所述的方法,所述通过将所述匹配输入项与预设规则进行 匹配,检测所述网页是否为钓鱼网页进一步包括: 判断所述网页图片中的文字是否包含关键字,以及判断所述网页所属站点是否具有企 业备案信息; 若所述网页图片中的文字包含关键字且所述网页所属站点不具有企业备案信息,则检 测出所述网页为可疑钓鱼网页。
6. 根据权利要求1-3任一项所述的方法,还包括:采用基于URL和/或IP和/或网页 内容进行识别的方法对所述网页进行识别,将识别结果作为匹配输入项; 所述通过将所述匹配输入项与预设规则进行匹配,检测所述网页是否为钓鱼网页进一 步包括:结合所述网页图片中的文字是否包含关键字的判断结果以及所述识别结果,检测 所述网页是否为可疑钓鱼网页。
7. 根据权利要求2或3所述的方法,在所述对浏览器打开的网页进行截图,获取网页图 片之前还包括: 对多个样本图片进行分类,得到每一分类下的至少一个样本图片; 对于每一分类,截取该分类下各个样本图片中的文字区域块,从文字区域块中提取出 文字作为该分类的训练样本集,基于所述训练样本集进行训练,得到该分类对应的文字识 别库。
8. 根据权利要求6所述的方法,所述将网页图片中的文字区域块进行光学字符识别处 理,得到所述网页图片中的文字具体为:基于各个分类对应的文字识别库,将网页图片中的 文字区域块进行光学字符识别处理,得到所述网页图片中的文字。
9. 一种基于文字识别检测可疑钓鱼网页的装置,包括: 网页图片获取模块,适于对浏览器打开的网页进行截图,获取网页图片; 文字识别模块,适于将所述网页图片进行识别处理,得到所述网页图片中的文字; 匹配模块,适于将所述网页图片中的文字作为匹配输入项,通过将所述匹配输入项与 预设规则进行匹配,检测所述网页是否为可疑钓鱼网页。
10. 根据权利要求9所述的装置,所述文字识别模块进一步包括: 查找单元,适于查找所述网页图片中的文字区域块; 文字识别单元,适于将所述网页图片中的文字区域块进行光学字符识别处理,得到所 述网页图片中的文字。
【文档编号】G06F17/30GK104156490SQ201410439878
【公开日】2014年11月19日 申请日期:2014年9月1日 优先权日:2014年9月1日
【发明者】李晓波, 尹露, 杨晶, 郭峰 申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司