基于曲线投影的畸变文本图像基线估计方法

文档序号:9598205阅读:580来源:国知局
基于曲线投影的畸变文本图像基线估计方法
【技术领域】
[0001] 本发明实施例涉及数字图像处理和计算机视觉技术领域,尤其是涉及基于曲线投 影的畸变文本图像基线估计方法。
【背景技术】
[0002] 用相机拍摄书刊等弯曲文档页面时,由于相机的透视效应及页面的弯曲,得到的 图像常常伴随着严重的几何畸变。这种几何畸变为随后的文本图像分析,如图像的版面分 析、字符识别带来了严重的问题,因此,人们常常需要对一幅畸变的文本图像首先进行畸变 矫正。这其中涉及的一个首要问题是如何鲁棒、精确提取图像中弯曲文本行的基线。
[0003] 文本行基线是文本图像中一簇不可见的水平直线,这簇直线彼此相互平行,文档 的印刷内容(如文本行、图表等)沿着这簇基线对齐排列。对于弯曲的文档页面,这簇基线 通常不再是一簇直线,而是一簇曲线。另外,由于相机的透视效应,文本图像上的文本行基 线不再彼此平行。此外,由于文档页面版面复杂多样以及图像中非文字目标干扰、成像噪 声、图像遮挡、图像分辨率低、文字模糊等因素的普遍存在,从畸变文本图像中精确、鲁棒的 提取其中的文本行基线通常具有很大的挑战性。
[0004] 为估计弯曲的文本行基线,一类常用的方法首先对图像中的水平文本行进行分 害J,然后对文本行中的每个字符提取对应的参考点,最后利用B样条曲线对这些参考点进 行拟合得到文本行基线的估计。根据获取文本行的方法不同,这类方法可进一步细分为:基 于文本行跟踪的方法、基于连通分支聚类的方法以及基于图像分割的方法。
[0005] 早期的文本行跟踪直接在二值图像上进行。这类方法首先以一定策略选取二值图 像中的连通分支作为跟踪的起始种子点,然后通过搜索种子点周围的近邻连通分支对这些 种子点进行种子点生长。需要指出的是,由于图像模糊、分辨率低等因素常常导致连通分支 出现粘连,因此,在连通分支层面的跟踪往往是不稳定的,常常导致大量的跟踪错误。此外, 这种方法对语种非常敏感,如大多数中文字符通常由多个连通分支组成,因此,在中文文档 上进行跟踪常会得到错误的文本行。
[0006] 针对上述方法的一种改进是直接在灰度图像上进行文本行跟踪。有学者提出了一 种基于滤波的方法,该方法利用一组各向异性的高斯滤波器组对灰度图像进行滤波提取文 本行的脊线,然后对得到的脊线进行跟踪提取文本行。另一种改进方法则注意到来自同一 文本行的图像块之间具有高度的相似性,因此引入了一种图像块之间的自相似度量函数, 并基于该度量函数来构造文本行跟踪算法。基于文本行跟踪的方法通常对图像噪声非常敏 感。此外,文本图像中的非文字目标、复杂的版面结构等也常会导致跟踪算法失败。
[0007] 文本行的提取问题通常可以看作连通分支的聚类问题。基于此,近来有学者提出 了一种自底向上的方法来分割手写中文文档图像中的文本行。该方法首先利用监督学习构 造连通分支之间的距离度量,然后利用最小生成树将一幅二值图像中所有的连通分支组织 成一个树形结构,最后通过动态的对最小生成树进行剪枝得到待分割的文本行。与此思路 类似,还有学者将文本行的分割问题作为图像中连通分支状态的能量最小化问题来求解, 通过引入代价函数来对文本行之间的相互作用及文本行弯曲进行度量,最后利用图割方法 对优化问题进行求解得到文本行分割结果。与基于文本行跟踪的方法相比,基于连通分支 聚类的方法通常较鲁棒。然而,算法中大量的人工参数设置、启发式的合并规则以及无法很 好处理连通分支拓扑结构变化等问题,常常导致这类算法在实际应用中表现不佳。
[0008] 与上述方法不同,基于图像分割的方法则将文本行提取看作一个经典的图像分割 问题来求解。基于此,有学者提出了基于密度估计和图像水平集的文本行分割方法。这类 方法的一个显著优点是与语种无关,因此可应用于不同语种的文本图像。受细缝裁剪(seam carving)技术启发,有学者将细缝裁剪技术直接应用于文本图像的文本行分割,取得了较 好的效果。基于图像分割的方法与大多数图像分割方法类似,均存在一个显著的局限性,也 即这类方法的分割效果对图像噪声、图像分辨率以及字符之间的粘连等非常敏感,而这些 因素在相机(尤其是手机自带相机)拍摄的文本图像非常普遍。
[0009] 有鉴于此,特提出本发明。

【发明内容】

[0010] 本发明实施例的主要目的在于提供一种基于曲线投影的畸变文本图像基线估计 方法,其至少部分地解决了如何估计畸变文本图像基线的技术问题。
[0011] 为了实现上述目的,根据本发明的一个方面,提供了以下技术方案:
[0012] 一种基于曲线投影的畸变文本图像基线估计方法,该方法至少可以包括:
[0013] 提取畸变文本图像的边缘图像;
[0014] 将所述边缘图像切分成条带图像;
[0015] 计算所述条带图像的投影图;
[0016] 根据所述投影图,估计所述条带图像的最优投影线;
[0017] 根据所述条带图像的所述最优投影线及边界线,得到所述畸变文本图像的基线。
[0018] 进一步地,所述提取畸变文本图像的边缘图像,具体包括:
[0019] 步骤1 :利用Canny算子计算输入图像的边缘图像;
[0020] 步骤2 :对所述边缘图像进行形态学闭操作以及去除操作;
[0021] 步骤3 :对所述步骤2得到的图像进行形态学膨胀操作。
[0022] 进一步地,所述计算所述条带图像的投影图,具体包括:
[0023] 计算所述条带图像对应的Radon变换矩阵识(p,6〇,对所述汧(A的进行坐标变 换,得到所述条带图像对应的投影图R(k,θ ),其中坐标变换公式如下:
[0025] 其中,
[0026] Η表示条带图像的高度;
[0027] k表示条带图像的行标;
[0028] P表示条带图像中心到投影线的距离;
[0029] Θ表示条带图像投影线的法线与条带图像横坐标轴的夹角;
[0030] α表示条带图像投影线与横坐标轴的最小夹角;
[0031] β表示条带图像投影线与横坐标轴的最大夹角。
[0032] 进一步地,所述根据所述投影图,估计所述条带图像的最优投影线,具体包括:
[0033] 在投影图R(k,Θ )上构造约束优化问题,并利用动态规划算法计算所述条带图像 的最优投影线。其中,所述约束优化问题如下:
[0035] 其中,
[0036] Θ k表示所述条带图像第k(k = 1,…,H)行中心点的投影线对应的最优夹角参数;
[0037] p表示投影值的幂指数参数;
[0038] λ表示权重参数;
[0039] Φ ( Θ i,…,θ Η)表示投影线夹角参数的光滑项,用来平滑相邻投影线的夹角参数, 定义如下:
[0041] 其中,σ为一设定参数,用来控制平滑项对相邻投影线夹角差值的敏感度。
[0042] 进一步地,所述利用动态规划算法计算所述条带图像的最优投影线,具体包括:
[0043] 构造加权有向图,
[0044] 其中,对投影图R(k,Θ)的k坐标和Θ坐标进行离散采样,得到k-θ平面上系列 网格点(ks, θ ·]) (1 < s < η, 1 < j < m),
[0045] 其中,1为k方向的离散采样点,
[0046] Θ ^为Θ方向的离散采样点,
[0047] η为k坐标的采样点总数,
[0048] m为Θ坐标的采样点总数,
[0049] 将所述网格点作为加权有向图的顶点;
[0050] 当且仅当两个顶点(ks u Θ ^和(ks,Θ 〇对应的投影线满足不相交条件,对所述 两个顶
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1