一种适用于自然场景下的中文文字识别方法

文档序号:10656147阅读:1121来源:国知局
一种适用于自然场景下的中文文字识别方法
【专利摘要】本发明公开了一种应用于自然场景下的中文文字识别的方法,通过建模训练阶段和文字识别阶段两个阶段进行文字识别。建模训练阶段依次先建立模板文字的树状结构表示,然后合成训练集,再训练卷积神经网络,之后提取节点的深度模板特征,最后建立并训练马尔科夫随机场;文字识别阶段则先对待识别图片进行图片预处理,然后提取输入图片的深度特征,随后最小化马尔科夫随机场能量函数,最后识别文字。本方法在进行文字识别时,同时考虑了文字的局部特征和全局结构,通过将马尔科夫随机场技术与树状结构中节点的深度特征相结合,克服了自然场景下由于文字模糊、形变大对识别效果的影响,提高了识别的效率。
【专利说明】
-种适用于自然场景下的中文文字识别方法
技术领域
[0001] 本发明设及中文文字的识别方法,尤其设及一种适用于自然场景下的中文文字的 识别方法。
【背景技术】
[0002] 文字识别在输入法、车牌识别、税票识别和书籍内容识别等领域有着极高的应用 需求。有不少相关的技术已经投入了商业使用,并且取得了较好的效果。但大部分技术都仅 限于特定的使用场景,现有技术在自然场景下的文字识别效果并不令人满意。
[0003] 根据应用场景不同,常见的中文文字识别算法主要分为两类:基于笔画跟踪的方 法和基于图片的方法。其中基于笔画跟踪的方法通常用在手机等的中文输入法上。由于自 然场景中的文字难W确定笔画位置和笔画顺序,所W运种方法并不适用于自然场景下的文 字识别。基于图片的中文文字识别算法主要有二次判别函数分类法、最近邻分类法和卷积 神经网络法。二次判别函数分类法和最近邻分类法对图片文字的判别性特征要求较高,而 自然场景下的文字常常受到复杂背景、光照和形状扭曲等影响,因此在自然场景下提取的 文字特征往往包含很大噪声,所W运两种方法的使用效果并不理想。卷积神经网络法对训 练数据的要求较高,如果训练数据的分布不太广泛,它的泛化能力就受到限制,W至于不能 识别字形变化较大的文字。

【发明内容】

[0004] 为了解决现有中文文字识别方法中存在的不适用于自然场景下的文字识别、识别 率低的问题。本发明提出一种可W在自然场景下高效的进行中文文字识别方法。本方法同 时利用文字的局部特征和全局结构来识别中文文字,通过将马尔科夫随机场技术与树状结 构中节点的深度特征相结合,克服了自然场景下由于文字模糊、形变大对识别效果的影响。 具体识别方法如下。
[0005] -种适用于自然场景下的中文文字识别方法,其特征在于:通过建模训练阶段和 文字识别阶段两个阶段进行文字识别,具体识别步骤如下:
[0006] 建模训练阶段:
[0007] 步骤1-1,建立模板文字的树状结构表示;首先,提取模板文字的骨架,找到骨架上 所有的端点、交点和转折点,设为节点;两两连接所有节点,W两节点之间的欧氏距离作为 连接运两个节点的边所对应的权重,建立带权重的完全无向图;计算该完全无向图的最小 生成树{G|(V,S)},最小生成树{G|(V,S)}即模板文字的树状结构;其中G表示最小生成树,V 表示节点集合IVi I i = l,2,. . .,v},v为节点数量,Vi表示第i个节点,S表示边集合{Sj I j = l, 2,. . .,s},S表示边的数量,Sj表示第j条边;
[000引步骤1-2,合成训练集;先将模板文字进行旋转、放射、腐蚀、膨胀变换,得到变形文 字;然后将变形文字与不同背景图片融合,每个融合后的变形文字生成一张40X40的灰度 图,将该模板文字生成的所有灰度图合成为一个训练集;在合成训练集的同时,跟踪树状结 构中的每一个节点在灰度图中位置的变换,记录每个节点在训练集中对应的位置;
[0009] 步骤1-3,训练卷积神经网络;将训练集中的灰度图打包,然后输入卷积神经网络, 卷积神经网络先进行第一层卷积,然后进行最大池化层处理,最大池化层处理后再依次进 行第二层卷积和第二层最大池化处理,第二层最大池化处理后输出特征图,接着用两个全 连接层对特征图进行处理,最后向后传播梯度W更新卷积神经网络的各层参数。在上述过 程进行多次迭代后,卷积神经网络训练完毕。将第二个最大池化层输出的特征图中的像素 按从上到下从左到右的顺序编号,节点Vi所对应的像素用编号切表示;
[0010] 步骤1-4,提取节点的深度模板特征;
[0011] 第1-401步,提取节点Vi在灰度图上的位置坐标(x,y),找出该节点Vi在特征图上对 应的位置(7x/40,7y/40),读取节点Vi在特征图上对应位置(7x/40,7y/40)的值,即得到节 点Vi的特征向量;
[0012] 第1-402步,按照上述步骤读取节点Vi在每一张灰度图中的位置坐标,通过位置坐 标找到该节点所有的特征向量,节点Vi的深度模板特征fi即该节点所有的特征向量的平均 向量;
[0013] 第1-403步,依次按照上述第401至402步得到该模板文字中所有节点的深度模板 特征fi;
[0014] 步骤1-5,建立并训练马尔科夫随机场;建立马尔科夫随机场的能量函数E,能量函 数E = Eu+Ep,其中Eu为能量函数的一元项,Ep为能量函数的二元项,
[0015]
[0016] 其中,fi为节点Vi的深度模板特征,知身表示节点Vi在特征图中对应的像素编号, 私成表示約汾在特征图中对应的特征向量,Qi为权重系数;
[0017]
[0018] 其中1堤树状结构中边&的长度,0徒示树状结构中边&与水平方向的夹角,〇(j) 是边Sj在特征图中对应的标号,l〇(j)表示边Sj在特征图中对应的边的长度,0〇(j)表示边Si在 特征图中对应的边与水平方向的夹角,&和丫 J为权重系数;
[0019]然后训练马尔科夫随机场的能量函数,得到S个权重系数ai、e诚Y撕取值,即完 成对运一模板文字的马尔科夫随机场的训练;
[0020] 步骤1-6,依次按照步骤1-1至步骤1-5的顺序,完成全部模板文字的建模训练;
[0021] 文字识别阶段:
[0022] 步骤2-1,图片预处理;将输入的图片转化为待识别灰度图,并把待识别灰度图的 尺寸调整为40 X 40;
[0023] 步骤2-2,提取输入图片的深度特征;
[0024] 第2-201步,用建模训练阶段步骤1-3所述的卷积神经网络处理上一步得到的待识 别灰度图,保留第二层最大池化处理后的输出,得到待识别灰度图的特征图;
[0025] 第2-202步,按照建模训练阶段得到的每一类模板文字的能量函数,计算树状结构 的节点在待识别特征图中不同像素编号材句所对应的位置上时的能量函数值;
[0026] 步骤2-3,最小化马尔科夫随机场能量函数;根据上一步中树状结构的节点在待识 别特征图中不同像素编号滅砂所对应的位置上时的能量函数值,寻找每一类模板文字的能 量函数的最小值;
[0027] 步骤2-4,匹配文字;比较上一步中各类模板文字的能量函数的最小值,将其中最 小的值所对应的模板文字作为识别结果,输出。
[00%]如上所述的适用于自然场景下的中文文字识别方法,在建模训练阶段的步骤1-5 中,训练马尔科夫随机场的能量函数时使用随机梯度下降方法进行训练。
[0029] 本发明所述的识别方法,在建模训练阶段的步骤1-6中,所述的全部模板文字包括 3500个常用汉字。
[0030] 本发明所述的识别方法,在所述的建模训练阶段的步骤1-3中,卷积神经网络的结 构顺序依次如下:输入层为40X40的灰度图;第一卷积层的过滤器数量为48个,过滤器大小 为5 X 5,步幅设为1,输出结构为48 X 36 X 36;第一最大池化层的窗口大小为2 X 2,步幅为1, 输出结构为48 X 18 X 18;第二卷积层的过滤器数量为96个,过滤器大小为5 X 5,步幅设为1, 输出结构为96 X 14 X 14;第二最大池化层的窗口大小为2 X 2,步幅为1,输出结构为96 X7 X 7;第一全连接层的输出为IX 1000;第二全连接层的输出为IX 3500; SoftMax层的输出为1 X3500。
[0031] 本发明所述的适用于自然场景下的中文文字识别方法,在文字识别阶段的步骤2- 3中寻找每一类模板文字的能量函数的最小值时使用信念传播算法进行计算。
[0032] 本方法,首先通过建模训练阶段建立各类模板文字的马尔科夫随机场,即相当于 为文字建立的模型。在建模时,先建立模板文字的树状结构,树状结构的节点对应为模板文 字中笔画的转折点和端点,得到文字的结构特征。将模板文字中由卷积神经网络训练计算 推导出的特征向量表示的局部特征,即深度模板特征,通过一元项中特征向量的形式融合 在马尔科夫随机场的能量函数中。类似的,由于马尔科夫随机场的能量函数的二元项中同 时考虑了模板文字中节点W及两两连接节点所形成的边之间的角度关系,因此模板文字的 全局结构特征得W在能量函数的二元项当中体现。运样一来,通过马尔科夫随机场的能量 函数所建立的模板文字模型会同时反映文字的局部特征和全局结构。建模训练时,需要对 每个汉字都对应建立一个马尔科夫随机场的模型,每个马尔科夫随机场都对应模板文字中 的一个类别,唯一的表示一个汉字。运样,在文字识别阶段进行匹配时,就会同时对文字的 局部特征和全局结构特征进行考察,从而避免自然场景下由于文字模糊、形变而造成识别 效率低的情况。
[0033] 本方法将文字识别转变成一个分类问题。本方法中,将常用的3500个汉字对应为 3500个类。在本专利中,每一类文字有一个马尔科夫随机场,也就是说,我们为每一类文字 分别建立了一个表示该类文字的模型,运个模型就是马尔科夫随机场,3500个汉字就有 3500个马尔科夫随机场。每一个马尔科夫随机场都有它自己的能量函数。当给定一张待识 别的文字时,我们只需要分别计算运个文字与3500个模型的匹配程度,找到最与之匹配的 模型,就可W识别出文字了。本方法通过处理待识别文字得到的最小化的能量函数值来衡 量待识别文字与之前训练过的模板文字模型的匹配程度。最小化的能量函数值越低表示待 识别文字与模板文字模型的匹配程度越高。最小化的能量函数值最低则表示待识别文字与 模板文字模型的匹配程度最高。而匹配的过程就是将模板文字的树状结构中每一个节点恰 当的投影到待识别文字的图片中的过程。匹配过程中的不同投影点就是模板文字的树状结 构的不同节点,匹配时通过马尔科夫随机场的能量函数来评价匹配程度,W寻找最佳的投 影点。对于一个待识别文字,3500个马尔科夫随机场就有各自对应的3500个最小化能量;在 运3500个值中找出最小的那个,运个值对应的马尔科夫随机场所代表的那一类文字,就是 待识别文字的识别结果。
[0034] 区别于现有技术,本发明具有如下的有益效果:
[0035] 本发明通过马尔科夫随机场能量函数的一元项和二元项,将文字的局部特征和全 局结构特征结合起来进行建模和匹配比较。运样的方法避免了现有的文字识别技术中对笔 画位置和笔画顺序的依赖,使得本方法更适合应用于自然场景中。同时,由于本发明所述的 识别方法只需要对待识别图片中文字的结构特征和局部特征进行处理,不需要掌握待识别 图片文字的全部判别性特征,因而应用于自然场景下时不需要考虑背景、光照、形状扭曲等 对识别特征的影响。而且,由于在建模训练阶段本发明就已经考虑到了自然场景所产生的 噪声。本发明在合成训练集时需要对模板文字进行旋转、放射、腐蚀、膨胀变换并且将运些 变形文字与不同背景图片融合。运样,在通过卷积神经网络对训练集进行建模训练时就将 自然场景中的噪声进行了处理,运样得到的模板文字模型就已经对实际应用中所可能出现 的噪声进行了处理。因而,在文字识别阶段将待识别文字与模板文字模型进行匹配时,自然 场景中噪声所产生的影响就会减小,采用本方法时,识别效率就会提高。
[0036] 进一步的,本发明在建模训练阶段的步骤1-5中,使用随机梯度下降方法训练马尔 科夫随机场。因为能量函数是凸函数,所W适用梯度下降的方法。随机梯度下降的每一次迭 代都随机选取少量的样本计算梯度,因而采用运种方式使得训练效率更高,建模训练过程 得W缩短。类似的,本发明在文字识别阶段的步骤2-3中,使用信念传播算法寻找每一类模 板文字的能量函数的最小值。由于马尔科夫随机场的无向图是树状的,其中不存在环,所W 信念传播算法可W快速的求得能量函数的最小值,从而进一步提高了本方法的识别速度。
[0037] 由于常用的汉字只有3500个,因而,本发明在对模板文字进行建模训练时只需要 针对3500个常用汉字进行建模即可满足一般的识别需求。运样可W减少建模训练所需的时 间,降低本方法对识别装置存储容量的要求,进一步降低成本。运样也可W在保证识别效果 的前提下减少匹配与识别过程所花的时间,提高识别效率。
【附图说明】
[0038] 下面结合附图和【具体实施方式】对本发明做更进一步的具体说明,本发明的上述和 或其他方面的优点将会变得更加清楚。
[0039] 图1为本发明流程图。
[0040] 图2举例说明了对文字模板骨架化,在骨架上标记端点、转折点交点,生成文字的 树状结构表示等过程。
[0041] 图3显示了部分合成的训练数据。
[0042] 图4是卷积神经网络的结构示意图。
【具体实施方式】:
[0043] 本发明所述的适用于自然场景下的中文文字识别方法同时利用基于深度卷积神 经网络和马尔科夫随机场进行文字识别。深度卷积神经网络负责提取文字的局部特征,马 尔科夫随机场从局部特征和文字的结构特征两方面来对文字进行建模。识别时,本方法根 据马尔科夫随机场能量函数的最小值来评价待识别文字与模板文字模型的匹配程度,从而 识别文字。
[0044] 下面结合附图对本发明做更加详细的解释:
[0045] 如图1所示,左侧框表示建模训练阶段的步骤流程,右侧则表示文字识别阶段。本 方法的特征在于:通过建模训练阶段和文字识别阶段两个阶段进行文字识别,具体识别步 骤如下:
[0046] 建模训练阶段:
[0047] 步骤1-1,建立模板文字的树状结构表示;
[0048] 运一步骤中,首先,提取模板文字的骨架;然后,选取骨架上所有的端点、交点和转 折点,设为节点,建立带权重的完全无向图;最后,计算该完全无向图的最小生成树{G|(V, S)},生成树状结构;此处所谓的骨架就是模板文字的笔画架构,由节点按照笔画链接而成。
[0049] 步骤1-2,合成训练集;
[(K)加]步骤1-3,训练卷积神经网络;
[0051] 步骤1-4,提取节点的深度模板特征;
[0052] 步骤1-5,建立并训练马尔科夫随机场;此处可使用随机梯度下降方法训练马尔科 夫随机场。随机梯度下降的每一次迭代都随机选取少量的样本计算梯度,因而采用运种方 式使得训练效率更高,建模训练过程得W缩短。
[0053] 步骤1-6,依次按照步骤1-1至步骤1-5的顺序,完成全部模板文字的建模训练。运 里,出于效率考虑,针对一般的识别需求,只需要对常用的3500个常用汉字进行建模训练即 可。运样一来节省了模板文字模型的存储要求,另一方面也节省了建模训练的时间W及设 计成本。
[0054] 文字识别阶段:
[0化5] 步骤2-1,图片预处理;
[0056] 步骤2-2,提取输入图片的深度特征;
[0057] 步骤2-3,最小化马尔科夫随机场能量函数;
[0058] 步骤2-4,匹配文字;比较上一步中各类模板文字的能量函数的最小值,将其中最 小的值所对应的模板文字作为识别结果,输出。
[0059] 具体而言,W图帥的"中"字为例,图2(a)首先给出了模板文字,建模训练阶段中, 各步骤具体实现如下:
[0060] 步骤1-1,建立模板文字的树状结构表示。首先,提取模板文字的骨架,得到图2(b) 中的结构。然后,寻找骨架上所有的端点、交点和转折点,设为节点。具体的8个节点如图2 (C)所示,包括上下2个端点,左右4个转折点,中间2个交点。两两连接所有节点,W两节点之 间的欧氏距离作为连接运两个节点的边所对应的权重,建立带权重的完全无向图。最后,计 算该完全无向图的最小生成树{G I (V,S)},最小生成树{G| (V,S)}即模板文字的树状结构; W "中"字为例,其最小生成树G包含8个节点和7条边,V表示节点集合IVi I i = 1,2,...,8},S 表示边集合{Sj Ii = I,2,...,7}。
[0061] 步骤1-2,合成训练集。先将模板文字进行旋转、仿射、腐蚀、膨胀变换,得到变形文 字;然后将变形文字与不同背景图片融合,每个融合后的变形文字生成一张40X40的灰度 图,将该模板文字生成的所有灰度图合成为一个训练集;在合成训练集的同时,跟踪树状结 构中的每一个节点在灰度图中位置的变换,记录每个节点在训练集中对应的位置。图3显示 了部分模板文字进行合成后形成的灰度图。
[0062] 其中,旋转即将模板文字旋转一定角度;仿射即将模板文字按照一定角度进行拉 伸变化;腐蚀即遮盖模板文字某些笔画中的一部分;膨胀即将模板文字进行扩张变形。所谓 的跟踪树状结构中每一个节点在灰度图中位置的变换,就是指,在进行模板文字变换的时 候同时保存个节点在不同变换状态下的位置坐标,保存下各节点在变形状态下的位置关 系,W便后续卷积神经网络及后续的步骤提取节点的深度模板特征。理论上融合的背景图 片可W有无数多个,实际建模训练中,我们仅选取了几种常见的背景进行融合处理。
[0063] 步骤1-3,训练卷积神经网络。将训练集中的灰度图打包,然后输入卷积神经网络, 卷积神经网络先进行第一层卷积,然后进行最大池化层处理,最大池化层处理后再依次进 行第二层卷积和第二层最大池化处理,第二层最大池化处理后输出特征图,接着用两个全 连接层对特征图进行处理,最后向后传播梯度W更新卷积神经网络的各层参数。在上述过 程进行多次迭代后,卷积神经网络训练完毕。将第二个最大池化层输出的特征图中的像素 按从上到下从左到右的顺序编号,节点Vi所对应的像素用编号WZ)表示。
[0064] 其中卷积神经网络的具体结构参见图4:输入层为40X40的灰度图一第一卷积层 (48 X 36 X 36)-第一最大池化层(48 X 18 X 18)-第二卷积层(96 X 14 X 14)-第二最大池 化层(96 X 7 X 7) -第一全连接层(1000) -第二全连接层(3500) -Sof tMax层(3500)。其中, 第一个卷积层的过滤器数量为48个,过滤器大小为5 X 5,步幅设为1。两个池化层都使用最 大池化,窗口大小为2 X 2,步幅为1。第二个卷积层的过滤器数量为96个,过滤器大小为5 X 5,步幅设为1。第二池化层与第一个相同。紧接着是两个全连接层。最后一个是SoftMax层, 3500对应的是文字的类别数量。卷积神经网络的训练数据来自于上一步所合成的训练集, 使用后向传播方法进行训练。
[0065] 步骤1-4,提取节点的深度模板特征。本步骤具体需要进行如下=步的处理:
[0066] 第1 -401步,提取节点Vi在灰度图上的位置坐标(X,y ),找出该节点Vi在特征图上对 应的位置(7x/40,7y/40),读取节点Vi在特征图上对应位置(7x/40,7y/40)的值,即得到节 点Vi的特征向量。由于步骤1-3中各图片在第二个最大池化层的输出为7 X 7的96通道的特 征图,因而,对应节点Vi的特征向量的维度为96维。
[0067] 第1-402步,按照上述步骤读取节点Vi在每一张灰度图中的位置坐标,通过位置坐 标找到该节点所有的特征向量,节点Vi的深度模板特征fi即该节点所有的特征向量的平均 向量;
[0068] 第1-403步,依次按照上述第401至402步得到该模板文字中所有节点的深度模板 特征fi;
[0069] 步骤1-5,建立并训练马尔科夫随机场。建立马尔科夫随机场的能量函数E,能量函 数E = Eu+Ep,其中Eu为能量函数的一元项,Ep为能量函数的二元项,
[0070]
[0071] 其中,fi为节点Vi的深度模板特征,斜Z')表示节点Vi在特征图中对应的像素编号,
[0072] ,表示切在特征图中对应的特征向量,〇1为权重系数;
[007引其中1堤树状结构中边&的长度,0徒示树状结构中边&与水平方向的夹角,0(j) 是边Sj在特征图中对应的标号,l0(j)表示边Sj在特征图中对应的边的长度,00(j)表示边Sj在 特征图中对应的边与水平方向的夹角,|3神日丫^为权重系数;二元项通过边的长度和角度可 W表示出树状结构中的边的长度和角度变化。
[0074] 然后训练马尔科夫随机场的能量函数,得到;个权重系数〇1、|3诚丫撕取值,即完 成对运一模板文字的马尔科夫随机场的训练;
[0075] 步骤1-6,依次按照步骤1-1至步骤1-5的顺序,完成全部模板文字的建模训练。
[0076] 利用马尔科夫随机场建立的模板文字模型中的一元项采用了特征向量表示模板 文字的局部特征。而同时将模板文字中节点W及两两连接节点所形成的边之间的角度关系 则通过马尔科夫随机场的能量函数的二元项表示,因此使得模板文字的全局结构特征得W 在能量函数的二元项当中体现。运样一来,通过马尔科夫随机场的能量函数所建立的模板 文字模型会同时反映文字的局部特征和全局结构。
[0077] 文字识别阶段中,各步骤具体实现如下:
[0078] 步骤2-1,图片预处理。将输入的图片转化为待识别灰度图,并把待识别灰度图的 尺寸调整为40 X 40;
[0079] 步骤2-2,提取输入图片的深度特征。具体步骤如下:
[0080] 第2-201步,用建模训练阶段步骤1-3所述的卷积神经网络处理上一步得到的待识 别灰度图,保留第二层最大池化处理后的输出,得到待识别灰度图的特征图;
[0081] 第2-202步,按照建模训练阶段得到的每一类模板文字的能量函数,计算树状结构 的节点在待识别特征图中不同像素编号切弓所对应的位置上时的能量函数值。
[0082] 能量函数由一元项和二元项相加得到。一元项中的fi(节点Vi的深度模板特征)已 通过建模训练阶段的步骤1-4得到计算得到。二元项中的树状结构中边&的长度)和0J (树状结构中边Sj与水平方向的夹角)由文字的树状结构决定。一元项的权重系数a和二元 项的权重系数e,丫均已通过建模训练阶段的步骤1-5的训练得出。运些参数在能量函数中 是作为常数存在的。由于树状结构的边由对应的两个节点相连而得到,即可W通过边两端 的两个节点唯一确定,也就是说,二元项中的0nW和InW均由一元项中的如)确定。因此能 量函数的值就只与树状结构的节点在待识别特征图中不同像素编号材 有关。杉是96维 的深度特征向量,由卷积神经网络第二个最大池化层输出得到。1。(山和9。^均通过如')所确 定的边的对应关系计算得到。通过改变W/)的取值,可W得到能量函数在不同滅Z)下的取 值,运个值用来评价在运种对应关系下测试文字与模型的匹配程度。能量函数的值越小就 说明匹配程度越高。
[0083] 步骤2-3,最小化马尔科夫随机场能量函数;根据上一步中树状结构的节点在待识 别特征图中不同像素编号滅砂所对应的位置上时的能量函数值,寻找每一类模板文字的能 量函数的最小值。本步骤中利用信念传播算法求解马尔科夫随机场的能量函数在不同約海 下的最小值。运个最小值对应于模板文字的树状结构与待识别文字的最佳匹配状态,用来 衡量马尔科夫随机场所表示的文字模型与待识别文字的匹配程度。
[0084] 信念传播算法的具体计算步骤可参考畑ri Stopher在2006年由Springer出版的 《化ttern recognition and machine learning》一书,其所公开的内容整体作为参考而引 入至此。
[0085] 步骤2-4,匹配文字;比较上一步中各类模板文字的能量函数的最小值,将其中最 小的值所对应的模板文字作为识别结果,输出。
[0086] 所有马尔科夫随机场的最小化能量函数值中取值最小就表示运个模板文字与待 识别文字的匹配程度最高,运个值对应的马尔科夫随机场所表示的文字类别就是待识别图 片的识别结果。
[0087] 本领域普通技术人员可W理解:W上所述仅为本发明的优选实施例而已,并不用 于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员 来说,其依然可W对前述各实施例记载的技术方案进行修改,或者对其中部分技术特征进 行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含 在本发明的保护范围之内。
【主权项】
1. 一种适用于自然场景下的中文文字识别方法,其特征在于:通过建模训练阶段和文 字识别阶段两个阶段进行文字识别,具体识别步骤如下: 建模训练阶段: 步骤1-1,建立模板文字的树状结构表示;首先,提取模板文字的骨架,找到骨架上所有 的端点、交点和转折点,设为节点;两两连接所有节点,以两节点之间的欧氏距离作为连接 这两个节点的边所对应的权重,建立带权重的完全无向图;计算该完全无向图的最小生成 树{G|(v,s)},最小生成树{G|(V,S)}即模板文字的树状结构;其中G表示最小生成树,V表示 节点集合{Vi |i = l,2,...,v},V为节点数量,Vi表示第i个节点,S表示边集合{Sj I j = 1, 2,. . .,s},s为边的数量,Sj表示第j条边,i和j均为整数; 步骤1-2,合成训练集;先将模板文字进行旋转、仿射、腐蚀、膨胀变换,得到变形文字; 然后将变形文字与不同背景图片融合,每个融合后的变形文字生成一张40X40的灰度图, 将该模板文字生成的所有灰度图合成为一个训练集;在合成训练集的同时,跟踪树状结构 中的每一个节点在灰度图中位置的变换,记录每个节点在训练集中对应的位置; 步骤1-3,训练卷积神经网络;将训练集中的灰度图打包,然后输入卷积神经网络,卷积 神经网络先进行第一层卷积,然后进行最大池化层处理,最大池化层处理后再依次进行第 二层卷积和第二层最大池化处理,第二层最大池化处理后输出特征图,接着用两个全连接 层对特征图进行处理,最后向后传播梯度以更新卷积神经网络的各层参数;在上述过程进 行多次迭代后,卷积神经网络训练完毕;将第二个最大池化层输出的特征图中的像素按从 上到下从左到右的顺序编号,节点%所对应的像素用编号我?)表示; 步骤1-4,提取节点的深度模板特征; 第1 -401步,提取节点Vi在灰度图上的位置坐标(X,y ),找出该节点Vi在特征图上对应的 位置(7x/40,7y/40),读取节点Vi在特征图上对应位置(7x/40,7y/40)的值,即得到节点V i的 特征向量; 第1-402步,按照上述步骤读取节点¥1在每一张灰度图中的位置坐标,通过位置坐标找 到该节点所有的特征向量,节点V1的深度模板特征&即该节点所有的特征向量的平均向量; 第1-403步,依次按照上述第401至402步得到该模板文字中所有节点的深度模板特征 fi; 步骤1-5,建立并训练马尔科夫随机场;建立马尔科夫随机场的能量函数E,能量函数E = EU+EP,其中Eu为能量函数的一元项,Ep为能量函数的二元项,其中,fi为节点Vi的深度模板特征,糾:?)表示节点Vi在特征图中对应的像素编号,b+表 示私O在特征图中对应的特征向量,ai为权重系数;其中Ij是树状结构中边Sj的长度,Θ」表示树状结构中边Sj与水平方向的夹角,〇(j)是边 Sj在特征图中对应的标号,表示边Sj在特征图中对应的边的长度,0。(」)表示边Sj在特征 图中对应的边与水平方向的夹角,氏和γ j为权重系数; 然后训练马尔科夫随机场的能量函数,得到三个权重系数和γ册取值,即完成对 这一模板文字的马尔科夫随机场的训练; 步骤1-6,依次按照步骤1-1至步骤1-5的顺序,完成全部模板文字的建模训练; 文字识别阶段: 步骤2-1,图片预处理;将输入的图片转化为待识别灰度图,并把待识别灰度图的尺寸 调整为40 X 40; 步骤2-2,提取输入图片的深度特征; 第2-201步,用建模训练阶段步骤1-3所述的卷积神经网络处理上一步得到的待识别灰 度图,保留第二层最大池化处理后的输出,得到待识别灰度图的特征图; 第2-202步,按照建模训练阶段得到的每一类模板文字的能量函数,计算树状结构的节 点在待识别特征图中不同像素编号如0所对应的位置上时的能量函数值; 步骤2-3,最小化马尔科夫随机场能量函数;根据上一步中树状结构的节点在待识别特 征图中不同像素编号私O所对应的位置上时的能量函数值,寻找每一类模板文字的能量函 数的最小值; 步骤2-4,匹配文字;比较上一步中各类模板文字的能量函数的最小值,将其中最小的 值所对应的模板文字作为识别结果,输出。2. 根据权利要求1所述的适用于自然场景下的中文文字识别方法,其特征在于,所述的 建模训练阶段的步骤1-5中,训练马尔科夫随机场的能量函数时使用随机梯度下降方法进 行训练。3. 根据权利要求1所述的适用于自然场景下的中文文字识别方法,其特征在于,所述的 建模训练阶段的步骤1-6所述的全部模板文字包括3500个常用汉字。4. 根据权利要求1所述的适用于自然场景下的中文文字识别方法,其特征在于,所述的 建模训练阶段的步骤1-3中,卷积神经网络的结构顺序依次如下:输入层为40X40的灰度 图;第一卷积层的过滤器数量为48个,过滤器大小为5 X 5,步幅设为1,输出结构为48 X 36 X 36;第一最大池化层的窗口大小为2 X 2,步幅为1,输出结构为48 X 18 X 18;第二卷积层的过 滤器数量为96个,过滤器大小为5 X 5,步幅设为1,输出结构为96 X 14 X 14;第二最大池化层 的窗口大小为2 X 2,步幅为1,输出结构为96 X 7 X 7;第一全连接层的输出为I X 1000;第二 全连接层的输出为1X3500; Sof tMax层的输出为1X3500。5. 根据权利要求1所述的适用于自然场景下的中文文字识别方法,其特征在于,所述的 文字识别阶段的步骤2-3中寻找每一类模板文字的能量函数的最小值时使用信念传播算法 进行计算。
【文档编号】G06K9/62GK106022363SQ201610319179
【公开日】2016年10月12日
【申请日】2016年5月12日
【发明人】路通, 刘小龙
【申请人】南京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1