专利名称:一种印刷体汉字识别系统的利记博彩app
技术领域:
本发明属于模式识别技术领域,具体涉及ー种采用人工智能领域的新算法的印刷体汉字识别系统。
背景技术:
自动文摘的研究是自然语言处理的ー个重要领域。但是目前所有的自动文摘模型均以文字的机内表示为系统输入,与实用化的目标显然还有相当大的差距,因为大量的文献资料仍是以传统的纸面印刷形式存在的。为此,本文提出了ー个印刷体汉字识别的并行神经网络方法,并进行了实验模拟。在对2500个汉字的测试中,识别率97%,误识率1%,拒识率2%。应该指出,虽然我们的系统是就印刷体汉字而设计的,其基本实现原理和方法同样适用于印刷体英文,以及手写体数字、英文和汉字等符号的识别。 本系统进行印刷体汉字识别的主要步骤是扫描仪输入一模糊增强与聚类分割一图象数据ニ值化一通过并行神经网络进行汉字匹配。
发明内容
本发明的目的是提供一种对输入射频数字信号输出ー个至多个的精确中心频点、带宽控制,带外信号抑制和信号増益功能的可调带通滤波器系统。实现本发明目的的技术方案是ー种印刷体汉字识别系统,采用人工智能领域的新算法,有效地提高了汉字识别的质量,该系统包括扫描输入,将印刷在纸面上的汉字经光电转换设备转换成电信号,形成多灰度级的数字信号,输入给计算机处理;模糊增强与聚类分割模块,包括模糊增强与平滑、多灰度级最佳分割;图象数据ニ值化模块,图象的平滑和增强,以及多灰度级的聚类分割之后,这里采用整体阈值选择法进行ニ值化,先统计出图象的灰度直方图,然后把直方图在某一阈值处分割成两组,当被分成的两组间方差为最大时,确定阈值;汉字识别模块,本系统采用并行神经网络方法,通过控制网络CN对样本进行粗分类,用识别网络RN对各粗类进行细分类,从而识别汉字。作为本发明的进ー步改进,所述模糊增强与平滑模块采用S.K.Pal等提出的模型,自输入到输出,两次应用模糊对比增强算子作模糊增强处理、其间一次平滑操作,为下一次增强作好准备。作为本发明的进ー步改进,所述聚类分割执行下列步骤(I)规定样本间距,取K,C,R(K〈S) 3值,取K个样本为凝集点;(2)计算这K个凝集点之两两间距,若最小距离〈C,则将相应两点合井,并将两点的算木均值作为新的凝集点;重复此步,直至全部间距> C为止;(3)在考察另(S-K)个样本,每考察一个,便算出它与所有凝集点之间距,若最小距离〉R,则该样本又作为新凝集点;若最小距离〈R便归它于最近凝集点的类,接着重新计算这ー类之重心,并将此重心作为新凝集点,若凝集点之间距〉C,便考察下一祥本;反之进行步2,在凝集点合并之后,再考察下一祥本,直至归类完毕;(4)再将全体样本逐个考察一遍,按步3聚类,如果最终分类结果与原来相同,便不再计算重心;反之重新计算重心,若再考察一遍后,分类结果与原先相同,则聚类完毕;反之重复步4,直至与前分类结果完全相同;(5)以上聚类过程以分类数为3的状态告终,从而可以产生分类数分别为Hi1,m2,...,me(me=3)的最好分割,再依公式(I)可分别求出相应的目标泛函
权利要求
1.一种印刷体汉字识别系统,该系统包括 扫描输入,将印刷在纸面上的汉字经光电转换设备转换成电信号,形成多灰度级的数字信号,输入给计算机处理; 模糊增强与聚类分割模块,包括模糊增强与平滑、多灰度级最佳分割; 图象数据二值化模块,图象的平滑和增强及多灰度级的聚类分割之后,采用整体阈值选择法进行二值化,先统计出图象的灰度直方图,然后把直方图在某一阈值处分割成两组,当被分成的两组间方差为最大时,确定阈值; 汉字识别模块,本系统采用并行神经网络方法,通过控制网络CN对样本进行粗分类,用识别网络RN对各粗类进行细分类,从而识别汉字。
2.根据权利要求I所述的一种印刷体汉字识别系统,其特征是,所述模糊增强与平滑模块采用S. K. Pal等提出的模型,自输入到输出,两次应用模糊对比增强算子作模糊增强处理、其间一次平滑操作,为下一次增强作好准备。
3.根据权利要求I所述的一种印刷体汉字识别系统,其特征是,一幅图象增强后的直方图拥有S个亮度级Γι,r2,…,rs,其相应的概率密度为P1, P2,…,Ps,本系统将目标函数改与为
4.根据权利要求I或3所述的一种印刷体汉字识别系统,其特征是,所述对S个亮度聚类分割执行下列步骤 (1)规定样本间距,取K,C,R(K〈S) 3值,取K个样本为凝集点; (2)计算这K个凝集点之两两间距,若最小距离〈C,则将相应两点合并,并将两点的算术均值作为新的凝集点;重复此步,直至全部间距> C为止; (3)在考察另(S-K)个样本,每考察一个,便算出它与所有凝集点之间距,若最小距离>R,则该样本又作为新凝集点;若最小距离〈R便归它于最近凝集点的类,接着重新计算这一类之重心,并将此重心作为新凝集点,若凝集点之间距>C,便考察下一样本;反之进行步.2,在凝集点合并之后,再考察下一样本,直至归类完毕; (4)再将全体样本逐个考察一遍,按步3聚类,如果最终分类结果与原来相同,便不再计算重心;反之重新计算重心,若再考察一遍后,分类结果与原先相同,则聚类完毕;反之重复步4,直至与前分类结果完全相同; (5)以上聚类过程以分类数为3的状态告终,从而可以产生分类数分别为Hl1,m2,…,me(me=3)的最好分割,再依公式(I)可分别求出相应的目标泛函
5.根据权利要求I所述的一种印刷体汉字识别系统,其特征是,图象数据二值化采用最大方差阈值设定法,首先统计出图象的灰度直方图,然后把直方图在某一阈值处分割成两组,当被分成的两组间方差为最大时,确定阈值,执行下列步骤 (1)统计图象中总象素数
6.根据权利要求I所述的一种印刷体汉字识别系统,其特征是,汉字识别采用并行神经网络方法通过控制网络CN对样本进行粗分类,用识别网络RN对各粗类进行细分类,从而识别汉字,CN和RN采用Hopfield网。
7.根据权利要求I或6所述的一种印刷体汉字识别系统,其特征是,采用一种新的追加学习算法,通过模拟人类的识字过程,即先学习部分汉字,然后逐渐学习其余汉字,最终实现对所有汉字的学习。
8.根据权利要求I或7所述的一种印刷体汉字识别系统,所述追加学习算法执行下列步骤 (1)让原有PNN识别V中的所有样本,设正确识别的样本集为V0; (2)对集合V-VO中的样本进行如下划分VT为V-Vtl中在PNN已学汉字中的样本子集;VF为V-Vtl中不在PNN已学汉字中的样本子集; (3)对Vt中的各个样本,如果其相应的识别网络PNi能对之进行正确识别,则无须再对RNi进行训练,否则将这些样本增加到RNi原有样本集中,重新训练RNi ; (4)对Vf中的所有样本,训练新的识别网络RN’,RN’,…,RN’,设其所划分的汉字子集相应为 U1’,U2’,…,Uq’ ; (5)用UU V样本集重新训练控制网络CN。
全文摘要
本发明涉及一种印刷体汉字识别系统,本系统采用人工智能领域的新算法,有效地提高了汉字识别的质量,该系统包括扫描输入,将印刷在纸面上的汉字经光电转换设备转换成电信号,形成多灰度级的数字信号,输入给计算机处理;模糊增强与聚类分割模块,包括模糊增强与平滑、多灰度级最佳分割;图象数据二值化,图象的平滑和增强及多灰度级的聚类分割之后,采用整体阈值选择法进行二值化,先统计出图象的灰度直方图,然后把直方图在某一阈值处分割成两组,当被分成的两组间方差为最大时,确定阈值;汉字识别,本系统采用并行神经网络方法,通过控制网络CN对样本进行粗分类,用识别网络RN对各粗类进行细分类,从而识别汉字。
文档编号G06K9/62GK102855479SQ201210257459
公开日2013年1月2日 申请日期2012年7月24日 优先权日2012年7月24日
发明者陶军 申请人:苏州工业园区七星电子有限公司