基于视觉特征和语义特征的跨媒体检索方法
【专利摘要】本发明针对互联网海量异构数据之间错综复杂的关系的公开了一种基于视觉特征和语义特征的跨媒体检索方法,主要包括以下几个步骤:第一步,使用二次开发的分布式网络爬虫对目标数据源的数据进行抓取;第二步,针对不同数据源,分别编写不同的模板,对网页进行基于模板的信息提取,对数据进行解析去噪,并存入数据库中;第三步,对图片提取特征值并建立索引,建立语义关联图;第四步,使用SVM支持向量机和已经训练过的模型,对内容进行分类;第五步,根据提取出的视觉特征和语义特征,计算不同类型数据之间的相似距离,分析不同类型数据之间的关联性。采用本方法,可以较有效地挖掘出不同类型数据之间的关联性。
【专利说明】
基于视觉特征和语义特征的跨媒体检索方法
技术领域
[0001] 本发明涉及一种跨媒体检索的方法,具体涉及一种基于视觉特征和语义特征的跨 媒体检索方法。
【背景技术】
[0002] 大数据时代,数据成为核心资产,在商业、经济及其他领域中,决策将日益基于数 据和分析而作出,而并非基于经验和直觉。很多研究人员正尝试挖掘互联网中海量的资源, 如Web搜索、社交网站、论坛新闻、视频图片分享等,来对重大事件进行分析和预测。
[0003] 然而,互联网中信息不仅规模巨大,而且存在十分广泛、错综复杂的四种交叉关 联:
[0004] (1)互联网网页之间的交叉关联
[0005] (2)不同类型数据之间的交叉关联
[0006] (3)用户检索过程中交互信息之间的交叉关联
[0007] (4)互联网网页、不同类型多媒体数据和用户交互信息之间深层的交叉关联。
[0008] 各种数据之间相互交叉关联,增加了对数据进行挖掘和分析的难度,同时也表明 仅仅对一种类型的数据进行数据挖掘和分析是远远不够的。本文主要讨论如何分析文字和 图片这两种不同类型的数据之间的关联。传统的方法中经常使用人工的方法对图片进行注 解和索引,然后通过索引对图片进行检索。人工注解具有很强的主观性,容易使图片检索的 结果出现误差。而且手动对图片进行注解和索引是一件劳动强度非常大的工作,显然,使用 传统的方法已经严重影响了工作效率。本文提出一种基于语义特征和视觉特征的跨媒体检 索方法,实现了对不同类型数据的关联分析。
【发明内容】
[0009] 根据本申请的第一个实施方案,提供了一种跨媒体检索的方法,实现不同类型数 据之间的跨媒体关联分析。
[0010] 为了解决上述问题,本发明提供了如下技术方案:
[0011]根据本发明的第一个实施方案,提供一种基于视觉特征和语义特征的跨媒体检索 方法,该方法包括以下步骤:
[0012] A)数据抓取:使用二次开发的分布式网络爬虫对目标数据源的数据进行抓取;
[0013] B)数据或信息的初步处理:针对不同数据源,分别编写不同的模板,并且对网页进 行基于模板的信息提取,对提取的数据或信息进行解析去噪,并存入数据库中;
[0014] C)从存储的数据或信息分别提取视觉特征和提取语义特征,该步骤C)包括以下子 步骤:
[0015] C1)提取视觉特征:提取图片特征,生成一个表示图片特征的144维直方图;和
[0016] C2)提取语义特征:首先,C21)基于同时出现在一个网页中的图片存在一定的语义 相关性的假设,以网页为共现窗口,设计共生算法得到第一阶段的语义关系图,即,将网页 作为结点,最终不同的网页之间生成彼此不连通的图;其次,C22)对各个网页的所有图像根 据CEDD、FITC图像特征(或,根据SIFT等局部特征)应用Affinity Propagation算法进行聚 类,同一类的图像视为类似图像,同一类的图像合并为一个点,该点保持与其他点关联,因 此将彼此不连通的图连通并形成语义信息丰富的语义关系图,即语义关联图;
[0017] D)内容分类:使用SVM支持向量机和已经训练过的模型,对爬虫抓取到的数据或信 息的内容进行分类;
[0018] E)跨媒体检索:根据上述子步骤C1)所提取出的视觉特征和上述子步骤C2)所提取 出的语义特征,计算不同类型数据之间的相似距离,从而分析不同类型数据之间的关联性, 进行检索。
[0019 ] 优选,上述子步骤C1)提取视觉特征包括:
[0020] (1)提取图片的颜色信息,进行模糊过滤,获取一个24-bin直方图;
[0021] (2)提取图片的纹理信息,进行数字过滤,获取一个6维边缘分布直方图;和
[0022] (3)将颜色信息和纹理信息综合起来,生成一个表示图片特征的144维直方图。
[0023] 优选,上述子步骤C21)生成彼此不连通的图的过程包括:依据假设出现在同一网 页中的图片彼此相关,将一张图片看作一个点,图片和图片之间的关系看作点与点之间的 边,同一个网页中的图片及其关系按上述抽象即形成每对顶点之间恰好连有一条边的图, 各个网页形成彼此不连通的图。
[0024]优选,步骤E)中的检索包括:
[0025] (E1)文字和图片之间的检索;
[0026] (E2)图片和图片之间的检索;和/或
[0027] (E3)个人信息采集。
[0028]进一步优选,步骤(E1)包括以下过程:
[0029] a)运用文字匹配工具(例如,选自于正则表达式或中文分词中的文字匹配工具), 在图片的相关属性中,对输入的关键字进行匹配;
[0030] b)对匹配到的图片,根据关键字出现的位置和频率计算它和文字的关联度,并对 图片按关联度进行排序;和
[0031 ] c)对T0P-K的图片的网页正文进行K-Means文本聚类,结合simhash算法,按照一定 比例返回关联度最高的M张图片。
[0032]优选,步骤(E2)包括以下过程:
[0033] a)使用CEDD等相关算法提取出图片的特征值;
[0034] b)使用Lucence对图片建立索引;
[0035] c)对不同特征的结果集按相似度进行合并、排序以及去重;和
[0036] d)对T0P-K的图片的网页正文进行K-Means文本聚类,结合simhash算法,按照一定 比例返回关联度最高的M张图片。
[0037]优选,步骤(E3)包括以下过程:
[0038] a)基于正则表达式,对网页中人物信息(它包括人物姓名、手机号和邮箱)的进行 提取;和
[0039] b)使用基于贡献度的个人信息采集技术来提取网页中的个人信息。
[0040] 优选,步骤B)中所述的分别编写不同的模板、对网页进行基于模板的信息提取的 过程包括以下步骤:
[0041]基于网页Html结构的特征来自动生成不同的模板,针对相似网页进行信息提取。 [0042]进一步优选,基于网页Html结构的特征来自动生成不同的模板的操作包括:使用 网页扫描工具nekoHtml对爬虫抓取到的网页文本进行解析,分析网页正文在网页中的位 置,因此,我们认定某个网站上的网页文本内容均是按照这种格式排列,按照这种格式作为 对应的模板,即可根据按照模板进行网页正文的提取。通常,针对不同url的host生成不同 的模板。
[0043] 优选,步骤(E3)的子步骤b)使用基于贡献度的个人信息采集技术来提取网页中的 个人信息的操作包括或主要包括以下两个方面:
[0044] i.基于人物姓名和个人信息共现的关系,给该人物信息赋予权值;
[0045] ii.根据可信度越高的网站(如:网易、搜狐等较权威的网站)出现的人物信息,往 往会获得更高的权值。
[0046] 与现有技术相比较,本发明具有以下有益技术效果:
[0047] 1、对互联网海量异构数据之间错综复杂的关系,本发明能够基于视觉特征和语义 特征进行跨媒体检索。
[0048] 2、本发明能够实现现不同类型数据之间的跨媒体关联分析。
[0049] 3、本发明的方法能够有效地挖掘出不同类型数据之间的关联性,并进行分析和提 取。
【附图说明】
[0050] 图1为由网页得到彼此不连通的图;
[0051] 图2为语义图在第二阶段的演变过程;
[0052]图3为示例性的新浪娱乐网页html内容;
[0053]图4为信息提取原理图;
[0054] 图5为RGB-HSV转换公式;
[0055]图6为10-bins模糊过滤器原理图;
[0056]图7为24-bins模糊过滤器原理图;
[0057]图8为平均灰度值的计算公式;
[0058] 图9为CEDD特征原理图;
[0059]图10为模糊纹理直方图原理;
[0060]图 11为FCTH 特征。
【具体实施方式】
[0061 ] -种基于视觉特征和语义特征的跨媒体检索方法,该方法主要包括以下步骤:、 [0062]第一步,使用二次开发的分布式网络爬虫对目标数据源的数据进行抓取;
[0063] 第二步,针对不同数据源,分别编写不同的模板,对网页进行基于模板的信息提 取,对数据进行解析去噪,并存入数据库中;
[0064] 第三步,首先是提取图片特征,主要需要以下几个步骤:
[0065] (1)提取图片的颜色信息,进行模糊过滤,获取一个24-bin直方图;
[0066] (2)提取图片的纹理信息,进行数字过滤,获取一个6维边缘分布直方图;
[0067] (3)将颜色信息和纹理信息综合起来,生成一个表示图片特征的144维直方图。
[0068] 然后是建立语义关联图,主要分为两部分:
[0069] (1)基于同时出现在一个网页中的图片存在一定的语义相关性的假设,以网页为 共现窗口,设计共生算法得到第一阶段的语义关系图。依据假设出现在同一网页中的图片 彼此相关,将一张图片看作一个点,图片和图片之间的关系看作点与点之间的边,同一个网 页中的图片及其关系按上述抽象即形成每对顶点之间恰好连有一条边的图,各个网页形成 彼此不连通的图,如图1所示,包含A,B,C三个网页,每个网页包含三幅图的链接,分别得到 三个彼此不连通的图。
[0070] (2)上述阶段得到的大量彼此不连通的图,其包含的语义信息贫乏。不同网页中包 含不同方面的信息,将各个网页的信息联系起来才具有丰富语义信息,同理,将上述阶段得 到的大量彼此不连通的图联系起来才会形成语义丰富的图。本文拟对各个网页的所有图像 根据CEDD、FITC图像特征(或,根据SIFT等局部特征)应用Affinity Propagation算法进行 聚类,同一类的图像视为类似图像,同一类的图像合并为一个点,该点保持与其他点关联, 通过上述方法将彼此不连通的图连通并形成语义信息丰富的语义关系图。如图2所示,图2 中示例了从三个网页得到三个彼此不连通的图,图2的2中A3,B2,C1聚类为同一类,图2的3 中同一类的点聚合为一点,并保持与其他点的联系。
[0071]第四步,使用SVM支持向量机和已经训练过的模型,对内容进行分类;
[0072]第五步,根据提取出的视觉特征和语义特征,计算不同类型数据之间的相似距离, 从而分析不同类型数据之间的关联性。
[0073] (1)文字和图片之间的检索
[0074] a)运用正则表达式、中文分词等工具,在图片的相关属性中,对输入的关键字进行 匹配。
[0075] b)对匹配到的图片,根据关键字出现的位置和频率计算它和文字的关联度,并对 图片按关联度进行排序。
[0076] c)对T0P-K的图片的网页正文进行K-Means文本聚类,结合simhash算法,按照一定 比例返回关联度最高的M张图片。
[0077] (2)图片和图片之间的检索
[0078] a)使用CEDD等相关算法提取出图片的特征值。
[0079] b)使用Lucence对图片建立索引。
[0080] c)对不同特征的结果集按相似度进行合并、排序以及去重。
[0081 ] d)对T0P-K的图片的网页正文进行K-Means文本聚类,结合simhash算法,按照一定 比例返回关联度最高的M张图片。
[0082] (3)个人信息采集
[0083] a)基于正则表达式,对网页中诸如人物姓名、手机号、邮箱等人物信息进行提取。
[0084] b)使用基于贡献度的个人信息采集技术来提取网页中的个人信息。
[0085] 进一步的,第二步中编写不同的模板,应用到了基于自动生成模板的信息提取技 术,包括以下步骤:
[0086] 通过观察主流网站的网页Html结构,一般来说同一板块的网页结构是相似的,因 此我们可以尝试自动生成模板,针对相似网页进行信息提取。以新浪娱乐为例,如图3所示, 该网站中网页正文内容位于图中标注的div块中。
[0087]基于网页Html结构的特征来自动生成不同的模板的操作包括:使用网页扫描工具 nekoHtml对爬虫抓取到的网页文本进行解析,分析网页正文在网页中的位置,因此,我们认 定某个网站上的网页文本内容均是按照这种格式排列,按照这种格式作为对应的模板,即 可根据按照模板进行网页正文的提取。通常,针对不同url的host生成不同的模板。
[0088]因此对于该网站,我们可以基于该特征生成只提取有用信息的模板,过滤掉无用 的垃圾信息。我们使用开源工具nekoHtml对网页文本进行解析,分析网页正文在网页中的 位置,针对不同url的host生成不同的模板。其原理图如图4所示。
[0089]进一步的,第五步中基于贡献度的个人信息采集技术引入了pagerank算法的思 想,主要包括以下两个方面:
[0090] i.基于人物姓名和个人信息共现的关系,给该人物信息赋予权值;
[0091] ii.可信度越高的网站(如:网易、搜狐等较权威的网站)出现的人物信息,往往会 获得更高的权值。
[0092]其中,使用相关算法提取图片特征的具体原理主要如下所示:
[0093] -、CEDD(Color and Edge Directivity Descriptor)算法
[0094] 1 ?颜色信息
[0095] 1)RGB模型转换为HSV模型
[0096]在提取颜色信息前就需要对图像像素进行RGB-HSV的模型转换。转换公式如下(也 参见图5):
[0107]通过上面的计算,便可以得出像素点的HSV值,下面将用HSV值进行模糊过滤,得出 颜色信息的直方图。
[0108] 2) 10-bins模糊过滤器
[0109] 10-bins模糊过滤器的工作过程是通过三个通道输入HSV信息,然后输出10个模糊 的直方图信息值。其原理如图6所示。
[0110] 3)24-bins模糊过滤器
[0111] 24-bins模糊过滤器就是将10-bins模糊过滤器输出的每种色区再分为3个H值区 域,输入一个10维向量和S、V通道值,输出的是一个24维向量,其原理如图7所示。
[0112] 2.纹理信息
[0113] 1)边缘方向直方图
[0m] 这里一种计算速度较快捷的纹理信息提取方法,EHD (Edge Hi stogram Descriptor),即边缘直方图描述符,将会用到5个数字滤波器。这五个数字滤波器是用来提 取纹理边缘信息,每个区域的平均灰度值计算方法如下(也参见图8):
[0120] 计算公式
[0121] 通过上面的计算公式,可以得出每个小区内图像边缘的信息,CEDD中纹理信息提 取的是一个6维直方图。
[0122] 3.CEDD 特征
[0123] 由纹理模块中六个区域提取出的6维向量直方图,然后在这些纹理信息的每一维 中再加入颜色模块提取出的24维颜色信息,这样就可以将颜色和纹理有效结合起来,最终 得出6*24 = 144维的直方图信息。其原理如图9所示。
[0124] 二、FCTH(Fuzzy Color and Texture Histogram)算法
[0125] FCTH特征可从3个模糊单元的组合求得结果。先将图像划分成若干分块,在第一个 模糊单元中以HSV颜色空间的三个信道为输入,经模糊系统最终产生10-bin的直方图。在第 二个模糊单元修改每个颜色的色调后,经模糊系统最终产生24-bin的直方图。在颜色信息 的提取上,FCTH和CEDD基本一致,不再赘述。
[0126] 1.模糊纹理分割
[0127] 图像分块经Harr小波变换得到三个纹理元素 fLH,fHL和fHH。这三个纹理元素作为 模糊系统的输入,可得到8-bin直方图。模糊纹理直方图的原理如图10所示。
[0128] 2. FCTH 的实现
[0129] 定义与提取颜色信息相关的单元为颜色单元,与提取纹理信息相关的单元为纹理 单元,如图11所示,纹理单元所在的模糊系统产生了8个区间,颜色单元所在的模糊系统产 生了24个独立区间,这样最终的直方图将产生8*24 = 192bin区域。
【主权项】
1. 基于视觉特征和语义特征的跨媒体检索方法,该方法包括以下步骤: A) 数据抓取:使用二次开发的分布式网络爬虫对目标数据源的数据进行抓取; B) 数据或信息的初步处理:针对不同数据源,分别编写不同的模板,并且对网页进行基 于模板的信息提取,对提取的数据或信息进行解析去噪,并存入数据库中; C) 从存储的数据或信息分别提取视觉特征和提取语义特征,该步骤C)包括以下子步 骤: Cl)提取视觉特征:提取图片特征,生成一个表示图片特征的144维直方图;和 C2)提取语义特征:首先,C21)基于同时出现在一个网页中的图片存在一定的语义相关 性的假设,以网页为共现窗口,设计共生算法得到第一阶段的语义关系图,即,将网页作为 结点,最终不同的网页之间生成彼此不连通的图;其次,C22)对各个网页的所有图像根据 CEDD、FITC图像特征(或根据SIFT等局部特征)应用Affinity Propagation算法进行聚类, 同一类的图像视为类似图像,同一类的图像合并为一个点,该点保持与其他点关联,因此将 彼此不连通的图连通并形成语义信息丰富的语义关系图,即,生成语义关联图; D) 内容分类:使用SVM支持向量机和已经训练过的模型,对通过爬虫抓取到的数据或信 息的内容进行分类; E) 跨媒体检索:根据上述子步骤Cl)所提取出的视觉特征和上述子步骤C2)所提取出的 语义特征,计算不同类型数据之间的相似距离,从而分析不同类型数据之间的关联性,进行 检索。2. 根据权利要求1所述的方法,其中子步骤Cl)提取视觉特征包括: (1) 提取图片的颜色信息,进行模糊过滤,获取一个24-bin直方图; (2) 提取图片的纹理信息,进行数字过滤,获取一个6维边缘分布直方图;和 (3) 将颜色信息和纹理信息综合起来,生成一个表示图片特征的144维直方图。3. 根据权利要求1或2所述的方法,其中子步骤C21)生成彼此不连通的图的过程包括: 依据假设出现在同一网页中的图片彼此相关,将一张图片看作一个点,图片和图片之间的 关系看作点与点之间的边,同一个网页中的图片及其关系按上述抽象即形成每对顶点之间 恰好连有一条边的图,各个网页形成彼此不连通的图。4. 根据权利要求1-3中任何一项所述的方法,其中步骤E)中的检索包括: (El)文字和图片之间的检索; (E2)图片和图片之间的检索;和/或 (E3)个人彳目息米集。5. 根据权利要求4所述的方法,其中步骤(El)包括以下过程: a) 运用文字匹配工具(优选,正则表达式或中文分词),在图片的相关属性中,对输入的 关键字进行匹配; b) 对匹配到的图片,根据关键字出现的位置和频率计算它和文字的关联度,并对图片 按关联度进行排序;和 c) 对TOP-K的图片的网页正文进行K-Means文本聚类,结合simhash算法,按照一定比例 返回关联度最高的M张图片。6. 根据权利要求4或5所述的方法,其中步骤(E2)包括以下过程: a)使用CEDD等相关算法提取出图片的特征值; b) 使用Lucence对图片建立索引; c) 对不同特征的结果集按相似度进行合并、排序以及去重;和 d) 对TOP-K的图片的网页正文进行K-Means文本聚类,结合simhash算法,按照一定比例 返回关联度最高的M张图片。7. 根据权利要求4 一 6中任何一项所述的方法,其中步骤(E3)包括以下过程: a) 基于正则表达式,对网页中人物信息(它包括人物姓名、手机号和邮箱)的进行提取; 和 b) 使用基于贡献度的个人信息采集技术来提取网页中的个人信息。8. 根据权利1-7中任何一项所述的方法,其中:步骤B)中所述的分别编写不同的模板、 对网页进行基于模板的信息提取的过程包括以下步骤: 基于网页Html结构的特征来自动生成不同的模板,针对相似网页进行信息提取。9. 根据权利1-8中任何一项所述的方法,其中:基于网页Html结构的特征来自动生成不 同的模板的操作包括:使用网页扫描工具nekoHtml对爬虫抓取到的网页文本进行解析,分 析网页正文在网页中的位置,因此认定某个网站上的网页文本内容均是按照这种格式排 列,按照这种格式作为对应的模板,即可根据按照模板进行网页正文的提取。10. 根据权利1-9中任何一项所述的方法,其中:步骤(E3)的子步骤b)使用基于贡献度 的个人信息采集技术来提取网页中的个人信息的操作包括或主要包括以下两个方面: i.基于人物姓名和个人信息共现的关系,给该人物信息赋予权值;11. 根据可信度越高的网站(如:网易、搜狐等较权威的网站)出现的人物信息,往往会 获得更高的权值。
【文档编号】G06F17/30GK105912684SQ201610235578
【公开日】2016年8月31日
【申请日】2016年4月15日
【发明人】唐欢容, 欧阳建权, 徐竟达, 汤陈蕾, 王中涛
【申请人】湘潭大学