一种基于图割模型的场景图像中文本的定位方法

文档序号:9645935阅读:674来源:国知局
一种基于图割模型的场景图像中文本的定位方法
【技术领域】
[0001] 本发明属于图像处理技术领域,提出一种基于图割模型的场景图像中的文本区域 定位方法。首先提取图像中的最大稳定极值区域作为文本候选区域,然后以每个候选区域 为图割模型顶点,利用候选区域的一元文本特征和二元文本特征来建立图割模型,并利用 能量函数最小化去除背景区域以求得最优分割,最后通过文本聚合得到文本区域。图像中 的文本区域定位是后续的图像分割和图像理解的基础和前提。 2、
【背景技术】
[0002] 随着数码相机、手机等图像获取设备的广泛应用,图像已成为重要的传递信息的 载体,而图像中的文本通常能够提供重要的语义信息,所以,图像中的文本信息提取已成为 模式识别领域的研究内容之一,并有着良好的应用前景与商业价值。文本定位是文本提取 的前提与基础,是文本信息提取系统的关键部分,因此可靠而有效、且适用性强的场景图像 中的文本定位方法具有重要的意义。
[0003] 在自然场景图像中的文本,由于文本大小、字体、排列方式不确定,并且场景背景 一般较为复杂,图像中的文本精确定位的难度较大。目前,场景图像文本定位主要分为基于 边缘检测、基于连通区域和基于纹理特征等三类方法。基于边缘检测方法利用边缘检测得 到边缘图像,通过形态学处理和启发式过滤规则得到文本区域。但是当边缘较多、区域有交 叉时容易形成虚假文本;基于连通区域方法是根据局部文本区域的颜色与亮度相近且与背 景的对比度较高,利用颜色聚类、连通分量分析等方法对文本定位。但该方法适用单一背景 图像且对光照和颜色较敏感;基于纹理特征方法将文本视为一种特殊纹理,提取文本区域 的纹理特征,然后利用分类器对文本和背景进行分类。该方法准确度较高,但需要先提取大 量的正负样本来训练分类器导致计算量较大,而且单一的纹理特征并不能够有效的区分文 本与背景,特征的选取也是一个难点。 3、

【发明内容】

[0004]为了适应复杂场景图像中的文本定位,本发明提出一种基于图割模型的场景图像 文本定位的方法。该方法将文本区域和背景区域的多个不同特征,通过图割模型融合起来, 即采用代表文本区域特征的边缘方向梯度直方图、中心环绕直方图和笔画宽度变换的一元 特征构成区域项,采用描述文本区域与背景领域间的关系的颜色分布和区域相似性等二元 特征构成来边界项,以一元特征和二元特征构建能量函数,通过求解能量函数最小达到对 图的最优分割,将图像分割作为候选文本区域与背景区域的二分类过程,从而实现图像中 的文本定位。
[0005]图割模型是一种全局能量最小化的图像分割方法,主要的思路是将图像中的像素 作为图的顶点,把像素与领域间的关系作为图的边,这样就把图像映射成一个加权图,然 后根据边的权值设定能量函数,通过求解能量函数的最小化来实现对图的最优分割,从而 实现对原图像的分割。
[0006] 采用边缘梯度特征、中心环绕直方图和笔画宽度变异系数作为一元文本特征
[0007] 由于一元文本特征表示区域本身的文本特性,可根据提取的一元文本特征来描述 区域是文本区域还是背景区域,本发明采用边缘梯度特征、中心环绕直方图和笔画宽度变 异系数表示的一元文本特征构建能量函数的区域项。
[0008] (1)边缘梯度特征
[0009] 由于文本区域一般含有丰富的边缘信息,文本的边缘方向大致相反而且幅值大致 相同,各方向上的梯度相差不大,故边缘梯度是描述文本特性的有效特征。通过边缘检测提 取候选区域的边缘后,将梯度方向分为8个通道,每个通道为π/4,然后计算梯度的方向与 幅值,根据下式统计候选区域的边缘梯度特征:
[0010]
1=1
[0011] 其中,呒代表第i通道内的梯度。
[0012] (2)中心环绕直方图
[0013] 中心环绕直方图是指中心区域与其周围区域特征之间的卡方距离,是一个局部显 著性特征:
[0014]
[0015] 其中,I是指中心区域次是指最小外接矩形框内中心区域以外的区域。为了引起 人的视觉注意,文本通常具有局部显著性,相比于局部区域内周围的背景在强度上有较大 的差异,因此采用亮度特征的中心环绕直方图,但是由于文本特有的结构,一般都会包含很 多的孔洞,其中心和周围的差异不像其他显著目标那样明显,所以这里利用高斯函数对其 进行了平滑:
[0016] Rcenter=g(X) *X2 (I,Ir)
[0017] 其中,g(x)是指高斯函数。
[0018] ⑶笔画宽度变异系数
[0019] 笔画宽度特征是文本特有的特征,这里利用候选区域中笔画宽度的变异系数
表示区域的文本特性。
[0020] 采用颜色分布和区域结构相似性作为二元文本特征
[0021] 二元文本特征表示文本区域与其邻域背景区域之间的关系,能够反映候选文本区 域与相邻背景区域同为文本区域或背景区域还是不同类别区域的概率。即二元文本特征越 相似,两者是同一类区域的概率就越大。本发明考虑到研究对象为彩色图像,因此利用颜色 分布和区域结构相似性来表示二元文本特征。设p,q表示两个区域,若满足下式,则认为P, q是相邻的:
[0022] dis(p,q) < 2Xmin[max(wp,hp),max(wq+hq)]
[0023] 其中,w和h代表连通区域的宽和高,dis(p,q)是指p,q两个候选区域质心间的 欧氏距离。
[0024] (1)颜色分布
[0025] 通常情况下,同一行中的文字有着相同或者相似的颜色,因此颜色分布可以反应 相邻文本区域之间的关系。由于LAB颜色空间是基于生理特性的颜色系统,更符合人类的 视觉感应,故在计算颜色分布时将图像从RGB颜色空间转换为LAB颜色空间。选取两个区 域的平均颜色直方图之间的距离作为描述区域之间的颜色分布特征:
[0026]
[0027] 其中,pJPqj别代表区域p和q的颜色直方图。
[0028] (2)区域结构相似性
[0029] 区域结构相似性是描述相邻区域的空间关系、几何与纹理相似性,这里利用灰度 强度比、形状差异、笔画宽度均值比和区域间距4个特征描述。形状差异是指两个区域的高 度比与宽度比的均值,区域间距是指两个区域质心之间的距离,区域相似性4个特 征值的均值。
[0030] 使用一元特征和二元特征构建能量函数并求其最优解
[0031] 能量函数的区域项反应区域本身的特性,而边缘梯度特征RHW;、中心环绕直方图 RrantCT和笔画宽度变异系数Rsw三个一元特征能够很好的描述文本区域的本身特性。对于区 域P利用这三个特征建立区域项:
[0032]
[0033] 其中,η= 3,仁(i= 1,2, 3)分别是指RHTO、R_tCT和Rsw,σ是准度因子,由交叉验 证取为〇. 25。
[0034] 能量函数的边界项反应区域和邻域间的关系,而颜色分布BOTlOT和区域相似性 Braglcm描述的是文本区域和邻域之间的关系,当区域p和其领域q颜色分布与区域相似性越 接近,边界项B{p,q}将不同标签(0与1)分配给p和q的能量就越大,若差距越大,则能量就 越小,因此定义边界项:
[0035] B{p,q} =exp(_αBcolor_ (1-a)B
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1