一种基于条件随机场的古籍扫描图像背面渗透盲去除方法
【技术领域】
[0001] 本发明设及一种文本图像的处理方法,更具体的说是一种基于条件随机场的古籍 扫描图像背面渗透盲去除方法。
【背景技术】
[0002] 由于古籍文本稀少珍贵,现代的保护方法往往是把该些古籍数字化,W扫描图像 的方式供研究人员翻阅。由于古籍纸张质量或者长时间保存的问题,许多双面书写或印刷 的古籍都发生了背面渗透的现象,即墨水从纸张的另一面渗出的另一面的现象。该种现象 会使古籍文本的内容难W阅读,同时,也影响了某些珍贵手稿的视觉美感。
[0003] 为了解决上述问题,现已提出很多背面渗透移除的方法。目前来说,该些方法大 致可分为两类;盲去除方法和非盲去除方法。非盲去除方法需要一页古籍准确对齐的正反 两面的扫描图像。由于自动配准正反两面的图像依然存在诸多难点,因此该类工作通常需 要大量人工来完成。与之相对,盲去除方法只需要纸张的单面图像,避免了图像配准问题。 A.Tonazzini等人提出使用盲源分离技术,将输入图像看作前景部分、背面渗透部分和背景 部分的混合信号,并采用独立成分分析算法计算试图将该=部分恢复出来。因为该种方法 需要不同的传感器捜集到的相同对象的信号,所W此方法需要彩色扫描图像。在此之外,同 一作者又提出利用马尔科夫随机场和EM算法来解决盲源分离问题。有别于信号分离的想 法,C.Wolf将背面渗透去除看作图像分割问题,提出基于双隐藏层的马尔科夫随机场和单 一观测场方法。该方法通过最大流算法交替更新两个马尔可夫随机场的隐含值,直至收敛 到最终的分割结果。但是该类算法计算消耗过高,很难满足一些实际应用要求。
【发明内容】
[0004] 为了解决古籍扫描图像背面渗透盲去除存在的上述技术问题,本发明提供一种基 于条件随机场的古籍扫描图像盲去除方法。本发明有效的去除文本扫描图像中的背面渗透 部分,同时又较好的保证文本前景部分的完整性,提高了文本图像的可读性。
[0005] 本发明解决上述问题的技术方案包括W下步骤:
[0006] 1)将已知类别标签的扫描图像分为前景部分、背面渗透部分、背景部分,并建立图 像前景部分、背面渗透部分、背景部分的条件概率分布模型,得到前景、背面渗透、背景=部 分的逼近函数;
[0007] 2)根据步骤1)得到的逼近函数,用未知类别标签的文本图像作为输入,采用基于 K-means聚类算法得到未知类别标签的文本图像的前景部分、背面渗透部分、背景部分,并 计算图像前景部分、背面渗透部分、背景部分的灰度平均值和方差;
[000引如对输入图像建立条件随机场模型,并根据步骤。得到的图像前景部分、背面渗 透部分、背景部分的灰度平均值和方差对图像进行细分类,得到背面渗透部分;
[0009] 4)修复已分类的图像,去除背面渗透部分,得到最终的无背面渗透部分的图像。
[0010] 本发明的技术效果在于;本发明将古籍文本图像分成=个不同的组成部分,并建 立条件概率分布模型;利用K-means算法初始分类之后,估计出S种组份的参数;在此基础 上,建立输入图像的条件随机场,通过信念传播算法确定每个像素对应的类别标签;最后采 用随机填充算法修复图像中的背面渗透区域,去除图像中的背面渗透盲。本发明能有效去 除图像中的背面渗透部分,较好的保存前景部分,大大提高了图像的可读性。
【附图说明】
[0011] 图1为本发明的处理流程图;
[0012] 图2为不同分类方法的文本扫描图像分类结果比较;左起第一列为原文本图像, 第二列为K-means聚类算法的结果,第S列为本发明基于条件随机场方法的结果。
[0013] 图3为不同分类方法的前景像素分类准确率和召回率比较;
[0014] 图4为不同背面渗透移除方法的文本扫描图像结果比较;
[0015] 图4中左起第一列为原文本图像,第二列为K-means聚类结合随机填充算法的结 果,第=列为本发明的结果。
【具体实施方式】
[0016] 图1为本发明的处理流程图。如图所示,本发明先建立文本图像的随机概率分布 模型,将图像分为前景部分,背面渗透部分W及背景部分=个组成成分,得到=者的灰度直 方图的逼近函数,并采用K-means算法得到S者的参数估计,然后建立条件随机场模型对 输入图像进行细分类,利用置信传播算法识别背面渗透部分,最后通过随机填充算法修复 图像,得到最终的无背面渗透部分的文本扫描图像。
[0017]输入为带有背面渗透的灰度古籍图像,输出为无背面渗透的灰度古籍图像。本发 明的详细步骤如下:
[0018] 1.将已知类别标签的扫描图像分为前景部分、背面渗透部分、背景部分,并建立图 像=种成分的条件概率分布模型。整幅图像、前景部分、背面渗透部分和背景部分的灰度直 方图分别为H,Hfg,Hbt,Hbg。则每种成分条件概率分布如公式(1)、(2)、(3)所示。
【主权项】
1. 一种基于条件随机场的古籍扫描图像背面渗透盲去除方法,包括以下步骤: 1) 将已知类别标签的扫描图像分为前景部分、背面渗透部分、背景部分,并建立图像前 景部分、背面渗透部分、背景部分的条件概率分布模型,得到前景、背面渗透、背景三部分的 逼近函数; 2) 根据步骤1)得到的逼近函数,用未知类别标签的文本图像作为输入,采用基于 K-means聚类算法得到未知类别标签的文本图像的前景部分、背面渗透部分、背景部分,并 计算图像前景部分、背面渗透部分、背景部分的灰度平均值和方差; 3) 对输入图像建立条件随机场模型,并根据步骤2)得到的图像前景部分、背面渗透部 分、背景部分的灰度平均值和方差对图像进行细分类,得到背面渗透部分; 4) 修复已分类的图像,去除背面渗透部分,得到最终的无背面渗透部分的图像。
2. 根据权利要求1所述的基于条件随机场的古籍扫描图像背面渗透盲去除方法,其特 征在于,所述的步骤1)的具体步骤为:采用逻辑函数来近似前景和背景条件概率分布,其 概率分布如下:
其中s是类别标签,d是灰度值,(U(l,U2)为中心位置因子,(〇 m。2)为形状因子; 采用高斯函数近似背面渗透部分的条件概率分布如下:
其中P为幅度因子,^和〇 i分别为中心位置因子和形状因子。
3. 根据权利要求1所述的基于条件随机场的古籍扫描图像背面渗透盲去除方法,其特 征在于,所述的步骤2)的具体步骤为:对于未知类别标签的输入图像,将出现次数最多的 灰度值作为背景组份的平均灰度C 2,并估计出背景组份的方差如下:
其中N是输入图像的像素总数,I {f}为标记函数,当表达式f>0时,函数值为1,否则为 〇, Ij和I k分别表示图像I中的第j和k个像素。 根据估计出的背景组份的平均灰度和方法,从整个输入图像的直方图中,减去背景组 份,然后采用大津法根据剩余的直方图确定区分前景组份和背景渗透组份的灰度阈值,并 根据阈值划分的结果来计算前景组份和背面渗透组份的灰度平均值。
4. 根据权利要求1所述的基于条件随机场的古籍扫描图像背面渗透盲去除方法,其特 征在于,所述的步骤3)的具体步骤为:条件随机场模型包括一个隐藏的马尔科夫随机场和 一个观察场,观察节点的值即为像素灰度值,隐藏的马尔科夫节点值为类别标签,利用置信 传播算法来逼近最优解,得到背面渗透区域。
5. 根据权利要求1所述的基于条件随机场的古籍扫描图像背面渗透盲去除方法,其特 征在于,所述的步骤4)的具体步骤为:采用随机填充算法,在背面渗透像素邻域内随机选 择一个背景像素灰度值,取代原灰度值,去除背面渗透区域。
【专利摘要】本发明公开了一种基于条件随机场的古籍文本图像背面渗透盲去除方法。它包括以下步骤:先建立文本图像的随机概率分布模型,将图像分为前景部分,背面渗透部分以及背景部分三个组成成分,得到三者的灰度直方图的逼近函数,并采用K-means算法得到三者的参数估计,然后建立条件随机场模型对输入图像进行细分类,利用置信传播算法识别背面渗透部分,最后通过随机填充算法修复图像,得到最终的无背面渗透部分的文本扫描图像。本发明采用条件随机场与随即填充修复算法相结合的方法,能够完善的保留文本图像的前景部分,并有效地移除背面渗透部分,大大改善文本扫描图像的视觉效果,解决了历史文本扫描图像的显示和打印等问题,具有很高的实际应用价值。
【IPC分类】G06T5-00
【公开号】CN104867114
【申请号】CN201510168613
【发明人】李树涛, 孙斌, 孙俊
【申请人】湖南大学, 富士通株式会社
【公开日】2015年8月26日
【申请日】2015年4月13日