基于改进词袋模型的不良图像检测方法
【技术领域】
[0001] 本发明属于模式识别与计算机视觉的交叉领域,特别涉及结合颜色统计先验和词 袋模型的不良图像检测方法,可用于过滤色情图像。
【背景技术】
[0002] 随着互联网及无线通信技术的发展,人们更加易于从网上获取大量的有用信息, 但是淫秽、色情等不良信息也得以迅速传播。色情图像的传播干扰用户体验正常的网络信 息服务,引起严重的社会问题。因此,亟需鲁棒的不良图像信息过滤技术。
[0003] 由于彩色不良图像中通常含有大量裸露的肤色区域或者人体敏感器官,常用的不 良信息检测方法通过分析能反映这些特点的感兴趣区域来过滤不良图像,如在YCbCr空间 采用高斯混合模型对肤色进行建模,通过肤色模型提取肤色区域,分析肤色区域中的低层 特征来判定该区域是否包含不良信息。中科院自动化所的Hu等在文献"W. Hu,H. Zuo, 0. Wuj Y. Chen, Z. Zhang and D. Suter. Recognition of adult images, videos, and web page bags. ACM Transactions on Multimedia Computing, Communications and Applications, vol. 7, no. 28, pp. 1-24, 2011. "中采用基于AdaBoost的人体敏感器官检测器,并结合肤色区 域的低层特征表示来判断图像的性质,此方法的不足在于传统颜色描述方法所描述的信息 不丰富。
[0004] 由于不良图像的定义有较强的语义特性,基于词袋模型方法因其在语义描述上的 优势成为不良图像检测极具潜力的发展方向之一。常用的基于词袋模型的不良图像检测 方法首先提取图像的肤色区域,然后在肤色区域提取关键特征点,对这些特征点的尺度不 变变换特征SIFT类得到词典,将图像表示成词典中的视觉单词的直方图,从而基于图像的 直方图训练不良图像检测器。鉴于不良图像中人体的敏感器官常包含非肤色区域,肤色检 测方法往往漏检这部分信息,从而导致对不良信息判定起决定作用的一些特征点丢失。为 避免这种情况的出现,可在用词袋模型表示图像的局部特征时考虑融合颜色和梯度信息。 如德国人工智能研宄中心Ulges等在文献"A. Ulges, A. Stahl. Automatic detection of child pornography using color visual words. In IEEE International Conference on Multimedia and Expo, pp. 1-6, Barcelona, Jul. 2011. "中在 YUV 颜色空间的亮度 Y、红色差 U、蓝色差V通道中分别使用DCT描述子作为图像的局部特征。用这种特征融合方式构建词 典时,颜色或梯度任一种特征的变化均需要不同的单词来表示,因此在描述不良图像时需 要较大的词典规模,从而使得不良图像的表示更复杂,且在分类过程易出现过拟合问题。中 国科学院刘毅志等在文献"刘毅志,杨颖,唐胜,林守勋.基于视觉注意模型VAMI的敏 感图像检测方法.中国图象图形学报,vol. 16, no. 7, pp. 1226-1233,2011. "中采用基于加 速稳健特征的词袋模型结合全局颜色特征来表示不良图像。这种方法导致图像的局部区域 描述不精确。
【发明内容】
[0005] 本发明目的在于针对上述已有技术的不足,提出一种基于改进词袋模型的不良图 像检测方法,以提高颜色描述信息的丰富性,减小词典的规模,避免关键特征点的丢失,更 加精确描述图像局部区域,实现对不良图像的鲁棒检测。
[0006] 为实现上述目的,本发明的技术方案包括如下步骤:
[0007] (1)收集正常图像与不良图像作为训练集,并标记每幅图像的类别;用高斯差分 算子对训练集中的所有图像进行关键特征点检测,将这些关键特征点组成特征点集合T ;
[0008] (2)对集合T中的关键特征点分别利用尺度不变变换特征SIFT方法和颜色属性 CA方法计算关键特征点的梯度特征向量f和颜色特征向量f',对梯度特征向量和颜色特征 向量分别进行欧式距离测度下的K-均值聚类;并用梯度特征向量的聚类中心组成图像的 梯度词典,用颜色特征向量的聚类中心组成图像的颜色词典;
[0009] (3)将训练集中所有图像特征点的梯度特征向量量化为梯度词典中的单词,将训 练集中所有图像特征点的颜色特征向量量化为颜色词典中的单词;
[0010] (4)通过贝叶斯模型计算每个特征点的颜色单词的类条件概率,并与所对应特征 点的梯度单词相乘,统计得到颜色先验加权后的梯度单词直方图;
[0011] (5)将训练图像的加权直方图及其类别标记输入支持向量机SVM,训练不良图像 分类器;
[0012] (6)对待测图像,根据步骤(1)-(3)得到其关键特征点的梯度特征向量和颜色特 征向量,并将这些特征向量分别量化为梯度单词和颜色单词,将步骤(4)得到的颜色单词 的类条件概率与梯度单词相乘,统计出待测图像的颜色先验加权后的梯度单词直方图;
[0013] (7)将待测图像的加权直方图输入到步骤(5)所训练出的分类器中,根据分类器 的分类结果判断待测图像是否属于不良类。
[0014] 本发明与已有的基于肤色检测和词袋模型的不良图像检测方法相比,具有以下优 占.
[0015] 1)对图像中不良区域的颜色描述更准确,
[0016] 本发明用颜色属性方法来描述颜色信息,更符合人对颜色的语义定义,相对传统 的肤色检测方法,本发明能描述更丰富的颜色信息,因而对图像中不良区域的颜色描述更 准确;
[0017] 2)对图像中关键特征点的提取更全面。
[0018] 不良图像中人体的敏感器官常包含非肤色区域,肤色模型往往会漏检该部分区 域,从而导致对不良信息判定起决定作用的一些关键特征点丢失,导致不良图像的漏检率 增高,本发明采用颜色概率先验给出图像中各个关键特征点的颜色属于不良图像的概率, 从而避免了传统方法中关键特征点丢失的问题;
[0019] 3)特征描述更加灵活。
[0020] 本发明构建词袋模型时对颜色信息和梯度信息分别建立单独的词典,可以任意地 组合颜色单词和梯度单词以描述不良图像特征,从而使用较小规模的词典更灵活的表示不 良图像;
[0021] 4)局部区域描述的精确性更高。
[0022] 本发明将颜色信息作为梯度特征的视觉先验,来决定不同局部区域梯度特征的重 要性,提高梯度特征的鉴别性,从而提高了不良图像检测的局部区域描述的精确性。
[0023] 以下结合附图对本发明做进一步详细描述。
【附图说明】
[0024] 图1是本发明的实现流程图。
【具体实施方式】
[0025] 本发明基于颜色统计先验的不良图像检测方法,包括训练不良图像分类器和检测 不良图像两个阶段。其具体实现参照图1,描述如下。
[0026] - ·分类器训练阶段:
[0027] 步骤1,获取训练集。
[0028] la)从互联网或现有图库里收集包含人体敏感器官的图像作为不良图像,同时收 集含日常风景、人物画像等符合道德标准的图像作为正常图像,用这些不良图像和正常图 像组成图像训练集;
[0029] Ib)根据图像内容人工标记出每幅训练图像的类别,即将训练图像分为正常类和 不良类,得到与每幅图相对应的类别标记信息。
[0030] 步骤2,检测训练集中图像的关键特征点。
[0031] 2a)利用高斯差分算子DoG检测图像中的极值点:
[0032] 2al)采用隔点采样的方法变换图像的分辨率,并且多次改变采样间隔得到图像在 多个分辨率尺度下的采样结果,然后建立图像多分辨金字塔,其中每一层代表一个分辨率 尺度下的图像,并且按照分辨率大小排序,最下面是清晰的原始训练图像;
[0033] 2a2)用高斯滤波算子对金字塔中每层图像做滤波,得到原始训练图像在不同分辨 率下滤波后的输出结果,并且对相邻两层的结果求差值;
[0034] 2a