数字化图像的前景背景分割的系统与方法

文档序号：6596720阅读：158来源：国知局

专利名称：数字化图像的前景背景分割的系统与方法
数字化图像的前景背景分割的系统与方法
背景技术：
利用数字手持相机将文件数字化有时是便利的。然而，利用数字相机的文件捕获具有很多固有限制。例如，难以将均匀照明投射到文件表面上，而这常常导致在已获得的页面中的不均照射和色移。与利用手持数字相机数字化的文件共有的另一问题是由于相机在用户的手中的运动致使文本常常不清楚且模糊。这些类型的情况使得相机捕获的文件难以分析并转换成有用的电子格式。例如，模糊或不清楚的文本使得光学字符识别难(如果不是不可能的话)以将数字化图像转换成文本可编辑文件。一种用来解决该问题的方法是文件的前景和背景的分割，其通常称为文件图像分析群落中的二值化。前景和背景的分割通常是朝着文件图像分析和识别的第一步。对于均匀背景上的具有文本的良好扫描的文件而言，通过全局阈值可以获得高质量的分割。然而，对于相机捕获的文件图像而言，不均匀照明是常事，并且全局阈值化方法常常产生不可接受的结果。自适应阈值化算法已经被开发出来了；然而，此类程序可能在处理包含图的文件方面具有困难。

根据以下的、与附图相结合地进行的详细描述，本公开的各种特征和优点将是显而易见的，所述附图一起通过示例的方式图示出了本公开的特征并且其中
图I是根据本公开的、用于分割数字化图像上的前景和背景区域的系统的实施例的示意图2是由来自用于分割图I的数字化图像上的前景和背景区域的系统的实施例的数字相机产生的数字化图像的视图3是根据本公开的、具有前景区域和背景区域的图2的数字化图像的颜色梯度幅度的视图4是根据本公开的、通过分水岭变换处理被分割成1140个区域的颜色梯度幅度的视
图5是根据本公开的、通过将图4的颜色梯度幅度量化成256级而构建的梯度直方图的视图6是根据本公开的、通过噪声阈值比较技术被分割成230个区域的图4的数字化图像的视图7是根据本公开的、用于分割数字化图像上的前景和背景区域的方法的实施例的流程图；以及
图8是根据本公开的、用于分割数字化图像上的前景和背景区域的方法的另一实施例的流程图。
具体实施方式
现在将对图中图示的示例性实施例进行参考，并且特定的语言将在本文中用于描述相同的东西。然而，将理解的是，并不因此意图限制本公开的范围。本文举例说明的特征的变更和进一步修改以及本文举例说明的原理的附加应用(其将被相关领域中熟练的并且拥有本公开的人想到)将被认为在本公开的范围内。如本文所使用的，参考正被描述的图的方位来使用方向术语，诸如“顶部”、“底部”、“前面”、“后面”、“前端”、“尾部”等。因为本文公开的各种实施例的部件能够被定位在多个不同的方位上，所以所述方向术语是仅用于说明性目的，而无意于是限制的。如本文所使用的，术语“计算机”指的是任何类型的计算设备，包括个人计算机、大型计算机、便携式计算机、PDA、智能电话或工作站计算机，其包括处理单元、系统存储器以及将处理单元耦合至计算机的各种部件的系统总线。处理单元可以包括一个或多个处理器，其中的每个可以具有各种市售处理器中的任何一种的形式。通常，每个处理器从只读存储器(ROM)和/或随机存取存储器(RAM)接收指令和数据。系统存储器通常包括ROM (其存储包含计算机的启动例程的基本输入/输出系统(BIOS))和用于存储计算机程序指令和数据的RAM。
计算机还通常包括用于用户交互(例如，输入命令或数据，接收或观看结果)的输入设备，诸如键盘、定点设备(例如，计算机鼠标)、麦克风、相机或任何其他已知与计算设备一起使用的输入装置。计算机还可以包括输出设备，诸如监视器或显示器、投影仪、打印机、音频扬声器、或任何其他已知可由计算设备控制的设备。在某些实施例中，计算机还可以包括一个或多个图形卡，其中的每个能够驱动一个或多个与内部或外部时钟源同步的显示输出。本文使用术语“计算机程序”以指机器可读指令，其被存储在有形的计算机可读存储介质上，用于使得包括处理器和系统存储器的计算设备执行一系列的处理步骤，所述处理步骤转换数据和/或产生有形的结果，诸如显示指示或打印的标记。如本文所使用的术语“计算机可读介质”和“计算机可读存储介质”包括任何种类的存储器或存储设备，不管是易失性的还是非易失性的，诸如软盘、硬盘、CD-ROM、闪速存储器、只读存储器以及随机存取存储器，其适于为数据、数据结构以及机器可执行的指令提供非易失性或永久性存储器。适于有形地体现这些指令和数据的存储设备包括所有形式的非易失性存储器，例如包括半导体存储设备(诸如EPROM、EEPROM以及闪速存储设备)、磁盘(诸如内部硬盘和可移动硬盘)、磁光盘、以及光盘(诸如CD、CDROM、DVD-ROM、DVD-RAM、以及DVD-RW).上述类型的计算机可读介质或相关设备中的任何一个可以与计算机的一部分相关联或被包括作为计算机的一部分，并且通过相应接口连接到系统总线。其他计算机可读存储设备(例如，磁带驱动器、闪速存储器设备以及数字视频盘)也可以与计算机一起使用。本文描述的示例性实施例通常提供用于分割相机捕获的文件图像的前景和背景的系统与方法。可以通过利用根据梯度幅度的直方图估计的阈值、将分水岭变换应用于经噪声阈值化的(thresholded)颜色梯度幅度来执行初始的颜色分割。显著的背景区域可以被识别并且被插值以形成图像的完整背景表面的估计。所估计的背景表面可以被用来对原始图像进行归一化，从而使得背景像素变成纯白并且矫正前景的照明变化。然后可以通过将归一化像素与基于归一化像素根据欧几里得颜色距离计算的阈值颜色进行比较来确定最终的前景和背景分割。图I中提供的是通常在10处指示的用于分割数字化图像的前景和背景区域的系统的一个实施例的视图的示意图。该系统可以包括数字复印机(通常在20处指示)、计算机(通常在40处指示)、以及用于将数字图像分割成前景和背景区域的装置。数字复印机20可以数字地捕获并且复制原始硬拷贝文件12的数字的或数字化的图像14。数字复印机可以是数字相机、扫描仪等。如在图I中的实施例中示出的那样，数字复印机20可以是手持式数字相机22。相机22可以拍摄文件的数字图像。数字化图像可以是原始文件的数字复制品。可以将数字化图像从相机发送到用于处理的计算机40。图2示出了由数字相机22生成的数字化图像14a的实施例。该图像可以包括前景区域16a (诸如文本、图形、摄影图像等)以及背景区域18a。返回到图1，计算机40可以是基于微处理器的计算设备，诸如台式计算机(如图I中所示)、膝上型计算机、上网本、PDA、因特网服务器、应用服务器等。计算机可以包括处理器42以及包含有形的计算机可读存储介质的系统存储器44。处理器42可以被配置成接收、分析以及分割由上述数字复印机20产生的数字化图像14。处理器42可以包括用于识别数字图像14并将数字图像14分割成前景区域16和背景区域18的诸如编程之类的装置。在一个实施例中，该编程可以通过利用估计的背景表面将图像归一化来分割数字图像的前景和背景区域，并且将归一化的像素与阈值颜色进行比较以确定背景区域的最终分割。为了归一化图像，该程序可以首先估计数字化图像14的背景表面。可以通过将图像分割成初始区域并且从该初始区域中识别背景区域来完成估计背景表面。可以通过缩小并且平滑图像、确定该图像的颜色梯度幅度、并且将分水岭变换应用到该颜色梯度幅度来确定初始区域。图3示出了具有前景区域16b和背景区域18b的原始图像14的颜色梯度幅度14b。图4示出了通过分水岭变换处理分割成1140个区域的颜色梯度幅度14b。被分割的图像14c可以具有前景区域16c和背景区域18c。可以通过将该区域的颜色梯度幅度与阈值相比较来确定前景和背景区域。该阈值以上或以下的幅度可以将该区域识别为前景或背景。尽管该方法具有参数无关的优点，但是该方法当被应用到真实图像时由于可能被不经意地识别为前景或背景区域并且导致过度分割的图像中的噪声的原因而致使遭受过度分割。因此，如图4中所示出的那样，1140个区域产生有噪声的和杂波图像。该过度分割问题可以通过如方程式I中所描述的那样将非线性硬阈值化(hard-thresholding)应用到颜色梯度幅度来解决
10, s ^ th,
iff Uhi t[I]
I gt rKhennsr
其中g是颜色梯度幅度，而访8是阈值。该阈值thg可以基于梯度幅度的直方图来加以估计。图5图示出了梯度直方图gh [256]，其可以通过将梯度幅度值量化成256级并且对落入各个仓(bin)中的值的数目进行计数来加以构建。针对大多数文件而言，可以假设该背景区域是平滑的并且占据文件页面的最大部分。这意味着背景区域的梯度幅度构成了直方图gh中的最高峰。基于该假设，可以通过曲线T的尾部来设定阈值thg。此外，已经被确定的是，在定位峰值位置方面，加权平均值比简单的最大值搜索更稳健。可以使用方程式[2]来寻找峰值位置，
权利要求
1.一种用于分割数字化图像上的前景和背景区域的方法，所述方法由具有处理器和系统存储器的计算机来执行，包括以下步骤估计所述图像的完整背景表面；利用所估计的背景表面矫正所述图像的像素以归一化所述图像；以及将归一化的像素与阈值颜色进行比较以确定背景区域的最终分割。
2.根据权利要求I所述的方法，其中估计完整背景表面的所述步骤进一步包括将所述图像分割成初始区域；从所述初始区域识别背景区域；以及利用所述背景区域对完整背景表面进行插值。
3.根据权利要求2所述的方法，其中将所述图像分割成初始区域的所述步骤进一步包括缩小并平滑所述图像；计算所述图像的颜色梯度幅度；将所述图像的所述颜色梯度幅度与噪声阈值进行比较；以及将分水岭变换应用于经阈值化的颜色梯度幅度以确定所述初始分割区域。
4.根据权利要求2所述的方法，其中识别背景区域的所述步骤进一步包括基于平均颜色将区域聚集在一起；以及基于像素计数、亮度以及空间范围来选择背景区域的群集。
5.根据权利要求2所述的方法，其中对完整背景表面进行插值的所述步骤进一步包括使用迭代方法来固定所述背景区域的像素的值；针对每个R、G、B通道的每个非背景像素计算并更新4邻残值；以及当绝对残数的总和下降到被设定成与非背景像素的总数量成比例的阈值以下时，停止所述迭代。
6.根据权利要求I所述的方法，其中，将归一化的像素与阈值颜色进行比较以确定最终分割的所述步骤进一步包括确定所有像素的欧几里得颜色距离；将具有大于阈值的欧几里得颜色距离的像素识别为背景像素；以及根据信噪比以及预定的应用特征来确定所述欧几里得颜色距离阈值。
7.一种用于分割数字化图像上的前景和背景区域的方法，所述方法由具有处理器和系统存储器的计算机来执行，包括以下步骤将所述图像分割成初始区域；从所述初始区域识别背景区域；利用所述背景区域对完整背景表面进行插值；利用所述完整背景表面归一化所述图像；以及将归一化的像素与阈值颜色进行比较以确定背景区域的最终分割。
8.根据权利要求7所述的方法，其中将所述图像分割成初始区域的所述步骤进一步包括缩小并平滑所述图像；计算所述图像的颜色梯度幅度；将所述图像的所述颜色梯度幅度与噪声阈值进行比较；以及将分水岭变换应用于经阈值化的颜色梯度幅度以确定所述初始分割区域。
9.根据权利要求7所述的方法，其中识别背景区域的所述步骤进一步包括基于平均颜色将区域聚集在一起；以及基于像素计数、亮度以及空间范围来选择背景区域的群集。
10.根据权利要求7所述的方法，其中对完整背景表面进行插值的所述步骤进一步包括使用迭代方法来固定所述背景区域的像素的值；针对每个R、G、B通道的每个非背景像素计算并更新4邻残值；以及当绝对残数的总和下降到被设定成与非背景像素的总数量成比例的阈值以下时，停止所述迭代。
11.根据权利要求7所述的方法，其中利用经插值的背景表面归一化所述图像的所述步骤进一步包括根据缩小的图像估计完整背景表面；将所述缩小的图像按比例放大到原始分辨率；以及利用所估计的背景表面矫正所述图像的全部像素，从而使得全部背景像素具有近似纯白的颜色。
12.根据权利要求7所述的方法，其中，将归一化的像素与阈值颜色进行比较以确定最终分割的所述步骤进一步包括确定全部像素的欧几里得颜色距离；将具有大于阈值的欧几里得颜色距离的像素识别为背景像素；以及根据信噪比以及预定的应用特征来确定所述欧几里得颜色距离阈值。
13.一种用于分割数字化图像上的前景和背景区域的系统，包括数字复印机，其被配置成数字地复制文件；计算机，具有处理器以及用于从所述复印机接收数字复制品的系统存储器；软件程序，其被存储在有形的计算机可读存储存储器上，其能被所述处理器运行以执行以下步骤利用所估计的背景表面归一化所述图像；以及将归一化的像素与阈值颜色进行比较以确定背景区域的最终分割。
14.根据权利要求14所述的系统，进一步包括被存储在有形的计算机可读存储存储器上的用于执行以下步骤的软件编程将所述图像分割成初始区域；从所述初始区域识别背景区域；以及利用所述背景区域对完整背景表面进行插值。
15.根据权利要求14所述的系统，其中，所述数字复印机是数字相机，以及所述数字化图像是文件的数字照片。
全文摘要
一种用于分割数字化图像上的前景和背景区域的系统和方法使用具有处理器和系统存储器的计算机以将所述图像分割成初始区域并且从所述初始区域识别背景区域。估计所述图像的完整背景表面，并且利用所估计的背景表面矫正所述图像的像素以归一化所述图像。将归一化的像素与阈值颜色进行比较以确定背景区域的最终分割。
文档编号G06T7/00GK102725773SQ200980163374
公开日2012年10月10日申请日期2009年12月2日优先权日2009年12月2日
发明者J.范申请人:惠普发展公司，有限责任合伙企业

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：J.范
技术所有人：惠普发展公司，有限责任合伙企业
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。