本发明涉及计算机技术领域,尤其涉及一种理赔单据的字符识别方法及服务器。
背景技术:
随着大众保险意识的增强、购买保险的客户群大幅增多,保险公司需处理的客户理赔申请越来越多,保险公司作业人员需录入的理赔单据影像也越来越多,以致于录单作业人员的人力紧张,同时,经常会出现录单错误。为了有效减少录单错误、提高录单效率,目前,有些保险公司在录单作业过程中引入ocr(opticalcharacterrecognition,光学字符识别)技术,以自动识别出理赔单据影像的字符以填充到对应的输入栏位中。
然而,现有的利用ocr技术进行理赔单据影像字符的识别方案仅利用自身的识别引擎对整个理赔单据影像中的字符进行统一识别,并未考虑理赔单据框架格式对识别精度的影响,也并未考虑单据中的框线对字符识别的干涉,使得现有的识别方案的识别精度不高,需要耗费大量的人力、物力进行校验。
技术实现要素:
本发明的主要目的在于提供一种理赔单据的字符识别方法及服务器,旨在提高理赔单据的识别精度。
为实现上述目的,本发明提供的一种理赔单据的字符识别方法,所述方法包括以下步骤:
服务器在收到待识别字符的理赔单据影像后,按照该理赔单据框架格式的框线排布进行区域分割,获得一个或多个分割区域;
调用预先确定的分析模型对获得的各个分割区域进行分析,并利用预先确定的识别规则对分析出的各个分割区域分别进行字符识别,以识别出各个分割区域中的字符。
优选地,所述调用预先确定的分析模型对获得的各个分割区域进行分析的步骤包括:
调用预先确定的分析模型对获得的各个分割区域进行分析,以分析出可利用光学字符识别引擎识别的第一分割区域和不可利用光学字符识别引擎识别的第二分割区域;
所述利用预先确定的识别规则对分析出的各个分割区域分别进行字符识别的步骤还包括:
利用预先确定的光学字符识别引擎对各个所述第一分割区域进行字符识别,以识别出各个所述第一分割区域中的字符,并调用预先确定的识别模型对各个所述第二分割区域进行字符识别,以识别出各个所述第二分割区域中的字符。
优选地,所述预先确定的分析模型为卷积神经网络模型,所述预先确定的分析模型的训练过程如下:
a、针对预先确定的理赔单据框架格式,获取预设数量的基于该理赔单据框架格式的理赔单据影像样本;
b、对每一个理赔单据影像样本按照该理赔单据框架格式的框线排布进行区域分割,并确定出各个理赔单据影像样本中利用光学字符识别引擎识别错误的第三分割区域和利用光学字符识别引擎识别正确的第四分割区域;
c、将所有第三分割区域归入第一训练集,将所有第四分割区域归入第二训练集;
d、分别从所述第一训练集和所述第二训练集中提取出第一预设比例的分割区域作为待训练的分割区域,并将所述第一训练集和所述第二训练集中剩余的分割区域作为待验证的分割区域;
e、利用提取的各个待训练的分割区域进行模型训练,以生成所述预先确定的分析模型,并利用各个待验证的分割区域对生成的所述预先确定的分析模型进行验证;
f、若验证通过率大于或等于预设阈值,则训练完成,或者,若验证通过率小于预设阈值,则增加理赔单据影像样本的数量,并重复执行上述步骤a、b、c、d、e,直至验证通过率大于或等于预设阈值。
优选地,所述预先确定的识别模型为长短期记忆lstm模型,所述预先确定的识别模型的训练过程如下:
获取预设数量的分割区域样本,对各个分割区域样本以该分割区域样本所含字符来进行标注;
将预设数量的分割区域样本按照预设比例分为第一数据集和第二数据集,并将所述第一数据集作为训练集,将所述第二数据集作为测试集;
将所述第一数据集送入lstm网络进行模型训练,每隔预设时间,使用训练得到的模型对所述第二数据集中的分割区域样本进行字符识别,并将识别的字符与该分割区域样本的标注进行比对,以计算识别的字符和标注的误差;
若训练得到的模型识别字符的误差出现发散,则调整预设的训练参数并重新训练,直至使得训练得到的模型识别字符的误差能够收敛;
若训练得到的模型识别字符的误差收敛,则结束模型训练,将生成的模型作为训练好的所述预先确定的识别模型。
优选地,所述分割区域是由该理赔单据框架格式的框线所围成的最小单位的区域,且所述分割区域为不包含框线的区域。
此外,为实现上述目的,本发明还提供一种理赔单据的字符识别服务器,所述字符识别服务器包括:
分割模块,用于在收到待识别字符的理赔单据影像后,按照该理赔单据框架格式的框线排布进行区域分割,获得一个或多个分割区域;
识别模块,用于调用预先确定的分析模型对获得的各个分割区域进行分析,并利用预先确定的识别规则对分析出的各个分割区域分别进行字符识别,以识别出各个分割区域中的字符。
优选地,所述识别模块还用于:
调用预先确定的分析模型对获得的各个分割区域进行分析,以分析出可利用光学字符识别引擎识别的第一分割区域和不可利用光学字符识别引擎识别的第二分割区域;
利用预先确定的光学字符识别引擎对各个所述第一分割区域进行字符识别,以识别出各个所述第一分割区域中的字符,并调用预先确定的识别模型对各个所述第二分割区域进行字符识别,以识别出各个所述第二分割区域中的字符。
优选地,所述预先确定的分析模型为卷积神经网络模型,所述预先确定的分析模型的训练过程如下:
a、针对预先确定的理赔单据框架格式,获取预设数量的基于该理赔单据框架格式的理赔单据影像样本;
b、对每一个理赔单据影像样本按照该理赔单据框架格式的框线排布进行区域分割,并确定出各个理赔单据影像样本中利用光学字符识别引擎识别错误的第三分割区域和利用光学字符识别引擎识别正确的第四分割区域;
c、将所有第三分割区域归入第一训练集,将所有第四分割区域归入第二训练集;
d、分别从所述第一训练集和所述第二训练集中提取出第一预设比例的分割区域作为待训练的分割区域,并将所述第一训练集和所述第二训练集中剩余的分割区域作为待验证的分割区域;
e、利用提取的各个待训练的分割区域进行模型训练,以生成所述预先确定的分析模型,并利用各个待验证的分割区域对生成的所述预先确定的分析模型进行验证;
f、若验证通过率大于或等于预设阈值,则训练完成,或者,若验证通过率小于预设阈值,则增加理赔单据影像样本的数量,并重复执行上述步骤a、b、c、d、e,直至验证通过率大于或等于预设阈值。
优选地,所述预先确定的识别模型为长短期记忆lstm模型,所述预先确定的识别模型的训练过程如下:
获取预设数量的分割区域样本,对各个分割区域样本以该分割区域样本所含字符来进行标注;
将预设数量的分割区域样本按照预设比例分为第一数据集和第二数据集,并将所述第一数据集作为训练集,将所述第二数据集作为测试集;
将所述第一数据集送入lstm网络进行模型训练,每隔预设时间,使用训练得到的模型对所述第二数据集中的分割区域样本进行字符识别,并将识别的字符与该分割区域样本的标注进行比对,以计算识别的字符和标注的误差;
若训练得到的模型识别字符的误差出现发散,则调整预设的训练参数并重新训练,直至使得训练得到的模型识别字符的误差能够收敛;
若训练得到的模型识别字符的误差收敛,则结束模型训练,将生成的模型作为训练好的所述预先确定的识别模型。
优选地,所述分割区域是由该理赔单据框架格式的框线所围成的最小单位的区域,且所述分割区域为不包含框线的区域。
本发明提出的理赔单据的字符识别方法及服务器,在对理赔单据影像进行字符识别前,按照该理赔单据框架格式的框线排布对其进行区域分割,利用预先确定的识别规则对该理赔单据的各个分割区域分别进行字符识别,以分别识别出各个分割区域中的字符。由于考虑到理赔单据框架格式对识别精度的影响,在进行字符识别前先按照理赔单据框架格式的框线排布进行区域分割,再针对各个分割区域来进行字符识别,避免了在对整个理赔单据影像中的字符进行统一识别时单据中的框线对字符识别的影响及干涉,能有效提高对理赔单据中字符的识别精度。
附图说明
图1为本发明理赔单据的字符识别方法第一实施例的流程示意图;
图2为本发明理赔单据的字符识别方法第二实施例的流程示意图;
图3为本发明理赔单据的字符识别服务器第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种理赔单据的字符识别方法。
参照图1,图1为本发明理赔单据的字符识别方法第一实施例的流程示意图。
在第一实施例中,该理赔单据的字符识别方法包括:
步骤s10,服务器在收到待识别字符的理赔单据影像后,按照该理赔单据框架格式的框线排布进行区域分割,获得一个或多个分割区域;
本实施例中,服务器可以接收用户发出的包含待识别字符的理赔单据影像的字符识别请求,例如,接收用户通过手机、平板电脑、自助终端设备等终端发送的字符识别请求,如接收用户在手机、平板电脑、自助终端设备等终端中预先安装的客户端上发送来的字符识别请求,或接收用户在手机、平板电脑、自助终端设备等终端中的浏览器系统上发送来的字符识别请求。
服务器在收到待识别字符识别的理赔单据影像后,按照该理赔单据框架格式的框线排布进行区域分割,理赔单据影像中按照其框架格式排布有横向或竖向的框线,以组成各项输入栏供用户填写相关信息。本实施例中,按照该理赔单据框架格式的框线排布进行区域分割,获得一个或多个分割区域。例如,在一种实施方式中,由于一般不同类型的保险均对应有不同的单据格式模板,因此,可预先根据用户上传的单据类型(可能不同的保险有不同的单据格式),获取到对应的单据模板,然后根据模板的格式来分割。如可根据收到的待识别字符的理赔单据影像的单据类型,找到该理赔单据影像对应的单据模板,然后根据其对应的单据模板进行区域分割。该分割区域是由该理赔单据框架格式的框线所围成的最小单位的区域,且该分割区域为不包含框线的区域,以避免后续在对每一分割区域进行字符识别时框线对识别精度的干涉及影响,该分割区域类似于excel表格的每个方格,excel表格的每个方格即是最小区域内不包含框线的区域。
步骤s20,调用预先确定的分析模型对获得的各个分割区域进行分析,并利用预先确定的识别规则对分析出的各个分割区域分别进行字符识别,以识别出各个分割区域中的字符。
在按照该理赔单据框架格式的框线排布对理赔单据影像进行区域分割得到一个或多个分割区域后,可调用预先确定的分析模型对获得的各个分割区域进行分析,并利用预先确定的识别规则对各个分割区域分别进行字符识别,以识别出各个分割区域中的字符,也即理赔单据影像中的字符。例如,可利用预先确定的分析模型分析各个分割区域所适用的识别模型或识别方式,再根据分析出的结果针对各个分割区域利用适合各个分割区域自身的识别模型或识别方式来进行字符识别,以提高字符识别的准确率。如针对不同的分割区域,可分析出字符识别的方式为利用光学字符识别引擎进行识别,也可以用其他识别引擎或训练的识别模型来进行识别,在此不做限定。识别出各个分割区域中的字符,还可将各个分割区域中的字符自动填充、录入至与该理赔单据影像对应的电子理赔单据的各相应输入栏位中。
本实施例在对理赔单据影像进行字符识别前,按照该理赔单据框架格式的框线排布对其进行区域分割,利用预先确定的识别规则对该理赔单据的各个分割区域分别进行字符识别,以分别识别出各个分割区域中的字符。由于考虑到理赔单据框架格式对识别精度的影响,在进行字符识别前先按照理赔单据框架格式的框线排布进行区域分割,再针对各个分割区域来进行字符识别,避免了在对整个理赔单据影像中的字符进行统一识别时单据中的框线对字符识别的影响及干涉,能有效提高对理赔单据中字符的识别精度。
如图2所示,本发明第二实施例提出一种理赔单据的字符识别方法,在上述实施例的基础上,所述步骤s20包括:
步骤s201,调用预先确定的分析模型对获得的各个分割区域进行分析,以分析出可利用光学字符识别引擎识别的第一分割区域和不可利用光学字符识别引擎识别的第二分割区域;
步骤s202,利用预先确定的光学字符识别引擎对各个所述第一分割区域进行字符识别,以识别出各个所述第一分割区域中的字符,并调用预先确定的识别模型对各个所述第二分割区域进行字符识别,以识别出各个所述第二分割区域中的字符。
本实施例中,在按照该理赔单据框架格式的框线排布进行区域分割得到一个或多个分割区域后,在对获得的分割区域进行识别之前,还调用预先确定的分析模型对获得的各个分割区域进行分析,以分析出无需深度识别的第一分割区域和需要深度识别的第二分割区域。例如,以当前自身的识别引擎为ocr字符识别引擎为例进行说明,可将ocr字符识别引擎能正确识别或识别率高的区域作为无需深度识别的区域,即利用当前自身的ocr字符识别引擎即可对该区域的字符进行正确的识别,无需借助其他识别方式。将ocr字符识别引擎无法识别或识别率低的区域作为需要深度识别的区域,即利用当前自身的ocr字符识别引擎无法对该区域的字符进行正确的识别,需借助其他识别方式如经训练过的识别模型来进行字符识别。
在分析出该理赔单据影像中可利用ocr字符识别引擎进行正确识别的第一分割区域和不可利用ocr字符识别引擎识别的第二分割区域之后,即可针对分析出的第一分割区域和第二分割区域采取不同的识别方式进行字符识别。利用预先确定的ocr字符识别引擎对各个所述第一分割区域进行字符识别,以正确识别出各个所述第一分割区域中的字符。调用预先确定的识别模型对各个所述第二分割区域进行字符识别,以正确识别出各个所述第二分割区域中的字符,该预先确定的识别模型可以是针对大量分割区域样本进行训练好的识别模型,也可以是比自身的ocr字符识别引擎识别方式更复杂、识别效果更好的识别引擎,在此不做限定。
进一步地,在其他实施例中,所述预先确定的分析模型为卷积神经网络(convolutionalneuralnetwork,简称cnn)模型,所述预先确定的分析模型的训练过程如下:
a、针对预先确定的理赔单据框架格式,获取预设数量(例如,50万个)的基于该理赔单据框架格式的理赔单据影像样本;
b、对每一个理赔单据影像样本按照该理赔单据框架格式的框线排布进行区域分割,并确定出各个理赔单据影像样本中ocr字符识别引擎识别错误的第三分割区域和ocr字符识别引擎识别正确的第四分割区域;
c、将所有第三分割区域归入第一训练集,将所有第四分割区域归入第二训练集;
d、分别从第一训练集和第二训练集中提取出第一预设比例(例如,80%)的分割区域作为待训练的分割区域,并将第一训练集和第二训练集中剩余的分割区域作为待验证的分割区域;
e、利用提取的各个待训练的分割区域进行模型训练,以生成所述预先确定的分析模型,并利用各个待验证的分割区域对生成的所述预先确定的分析模型进行验证;
f、若验证通过率大于等于预设阈值(例如,98%),则训练完成,或者,若验证通过率小于预设阈值,则增加理赔单据影像样本的数量,并重复执行所述步骤a、b、c、d、e,直至验证通过率大于或等于预设阈值。
本实施例中利用经大量理赔单据影像样本训练过的卷积神经网络模型来进行分割区域分析,能够准确分析出理赔单据的各个分割区域中可利用ocr字符识别引擎来正确识别字符的第一分割区域和无法利用ocr字符识别引擎来正确识别字符的第二分割区域,以便后续针对第一分割区域和第二分割区域分别采用不同的识别方式来进行准确的字符识别操作,从而提高对理赔单据中字符的识别精度。
进一步地,在其他实施例中,所述预先确定的识别模型为长短期记忆(longshort-termmemory,简称lstm)模型,所述预先确定的识别模型的训练过程如下:
获取预设数量(例如,10万)的区域样本,该区域样本可以是历史数据中对若干理赔单据按照其框架格式的框线排布进行区域分割后的分割区域样本。在一种实施方式中,可统一将分割区域样本中的字体设置为黑色,背景设置为白色,以便于进行字符识别。并将各个分割区域样本进行标注,如可将各个分割区域样本的名称命名为该分割区域样本所包含的字符以进行标注。
将预设数量的分割区域样本按照预设比例(例如,8:2)分为第一数据集和第二数据集,将第一数据集作为训练集,将第二数据集作为测试集,其中,第一数据集的样本数量比例大于或者等于第二数据集的样本数量比例。
将第一数据集送入lstm网络进行模型训练,每隔预设时间(例如每30分钟或每进行1000次迭代),对模型使用第二数据集进行测试,以评估当前训练的模型效果。例如,在测试时,可使用训练得到的模型对第二数据集中的分割区域样本进行字符识别,并将利用训练得到的模型对分割区域样本的字符识别结果与该分割区域样本的标注进行比对,以计算出训练得到的模型的字符识别结果与该分割区域样本的标注的误差。具体地,在计算误差时,可采用编辑距离作为计算标准,其中,编辑距离(editdistance),又称levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符,一般来说,编辑距离越小,两个串的相似度越大。因此,在以编辑距离作为计算标准来计算训练得到的模型的字符识别结果与该分割区域样本的标注的误差时,计算得到的误差越小,说明训练得到的模型的字符识别结果与该分割区域样本的标注的相似度越大;相反,计算得到的误差越大,说明训练得到的模型的字符识别结果与该分割区域样本的标注的相似度越小。
由于该分割区域样本的标注为该分割区域样本的名称也即该分割区域样本所包含的字符,因此,计算出的训练得到的模型的字符识别结果与该分割区域样本的标注的误差即为训练得到的模型的字符识别结果与该分割区域样本所包含的字符之间的误差,能反映出训练得到的模型识别出的字符与正确的字符之间的误差。记录每一次对训练的模型使用第二数据集进行测试的误差,并分析误差的变化趋势,若分析测试时的训练模型对分割区域样本的字符识别的误差出现发散,则调整训练参数如activation函数、lstm层数、输入输出的变量维度等,并重新训练,使测试时的训练模型对分割区域样本的字符识别的误差能够收敛。当分析测试时的训练模型对分割区域样本的字符识别的误差收敛后,则结束模型训练,将生成的训练模型作为训练好的所述预先确定的识别模型。
本实施例中,针对ocr字符识别引擎无法识别的区域,采用训练好的lstm模型进行识别,由于lstm模型为经大量分割区域样本训练过的,且对分割区域样本的字符识别的误差收敛的模型,配合lstm模型自身的长期记忆功能使该lstm模型在识别分割区域中的字符时,能利用模型记住的长期信息如上下文信息等,更加准确地识别出分割区域中的字符,从而进一步提高对理赔单据中字符的识别精度。
本发明进一步提供一种理赔单据的字符识别服务器。
参照图3,图3为本发明理赔单据的字符识别服务器第一实施例的功能模块示意图。
在第一实施例中,该理赔单据的字符识别服务器包括:
分割模块01,用于在收到待识别字符的理赔单据影像后,按照该理赔单据框架格式的框线排布进行区域分割,获得一个或多个分割区域;
本实施例中,服务器可以接收用户发出的包含待识别字符的理赔单据影像的字符识别请求,例如,接收用户通过手机、平板电脑、自助终端设备等终端发送的字符识别请求,如接收用户在手机、平板电脑、自助终端设备等终端中预先安装的客户端上发送来的字符识别请求,或接收用户在手机、平板电脑、自助终端设备等终端中的浏览器系统上发送来的字符识别请求。
服务器在收到待识别字符识别的理赔单据影像后,按照该理赔单据框架格式的框线排布进行区域分割,理赔单据影像中按照其框架格式排布有横向或竖向的框线,以组成各项输入栏供用户填写相关信息。本实施例中,按照该理赔单据框架格式的框线排布进行区域分割,获得一个或多个分割区域。例如,在一种实施方式中,由于一般不同类型的保险均对应有不同的单据格式模板,因此,可预先根据用户上传的单据类型(可能不同的保险有不同的单据格式),获取到对应的单据模板,然后根据模板的格式来分割。如可根据收到的待识别字符的理赔单据影像的单据类型,找到该理赔单据影像对应的单据模板,然后根据其对应的单据模板进行区域分割。该分割区域是由该理赔单据框架格式的框线所围成的最小单位的区域,且该分割区域为不包含框线的区域,以避免后续在对每一分割区域进行字符识别时框线对识别精度的干涉及影响,该分割区域类似于excel表格的每个方格,excel表格的每个方格即是最小区域内不包含框线的区域。
识别模块02,用于调用预先确定的分析模型对获得的各个分割区域进行分析,并利用预先确定的识别规则对分析出的各个分割区域分别进行字符识别,以识别出各个分割区域中的字符。
在按照该理赔单据框架格式的框线排布对理赔单据影像进行区域分割得到一个或多个分割区域后,可调用预先确定的分析模型对获得的各个分割区域进行分析,并利用预先确定的识别规则对各个分割区域分别进行字符识别,以识别出各个分割区域中的字符,也即理赔单据影像中的字符。例如,可利用预先确定的分析模型分析各个分割区域所适用的识别模型或识别方式,再根据分析出的结果针对各个分割区域利用适合各个分割区域自身的识别模型或识别方式来进行字符识别,以提高字符识别的准确率。如针对不同的分割区域,可分析出字符识别的方式为利用光学字符识别引擎进行识别,也可以用其他识别引擎或训练的识别模型来进行识别,在此不做限定。识别出各个分割区域中的字符,还可将各个分割区域中的字符自动填充、录入至与该理赔单据影像对应的电子理赔单据的各相应输入栏位中。
本实施例在对理赔单据影像进行字符识别前,按照该理赔单据框架格式的框线排布对其进行区域分割,利用预先确定的识别规则对该理赔单据的各个分割区域分别进行字符识别,以分别识别出各个分割区域中的字符。由于考虑到理赔单据框架格式对识别精度的影响,在进行字符识别前先按照理赔单据框架格式的框线排布进行区域分割,再针对各个分割区域来进行字符识别,避免了在对整个理赔单据影像中的字符进行统一识别时单据中的框线对字符识别的影响及干涉,能有效提高对理赔单据中字符的识别精度。
进一步地,在上述实施例的基础上,上述识别模块02还用于:
调用预先确定的分析模型对获得的各个分割区域进行分析,以分析出可利用光学字符识别引擎识别的第一分割区域和不可利用光学字符识别引擎识别的第二分割区域;
利用预先确定的光学字符识别引擎对各个所述第一分割区域进行字符识别,以识别出各个所述第一分割区域中的字符,并调用预先确定的识别模型对各个所述第二分割区域进行字符识别,以识别出各个所述第二分割区域中的字符。
本实施例中,在按照该理赔单据框架格式的框线排布进行区域分割得到一个或多个分割区域后,在对获得的分割区域进行识别之前,还调用预先确定的分析模型对获得的各个分割区域进行分析,以分析出无需深度识别的第一分割区域和需要深度识别的第二分割区域。例如,以当前自身的识别引擎为ocr字符识别引擎为例进行说明,可将ocr字符识别引擎能正确识别或识别率高的区域作为无需深度识别的区域,即利用当前自身的ocr字符识别引擎即可对该区域的字符进行正确的识别,无需借助其他识别方式。将ocr字符识别引擎无法识别或识别率低的区域作为需要深度识别的区域,即利用当前自身的ocr字符识别引擎无法对该区域的字符进行正确的识别,需借助其他识别方式如经训练过的识别模型来进行字符识别。
在分析出该理赔单据影像中可利用ocr字符识别引擎进行正确识别的第一分割区域和不可利用ocr字符识别引擎识别的第二分割区域之后,即可针对分析出的第一分割区域和第二分割区域采取不同的识别方式进行字符识别。利用预先确定的ocr字符识别引擎对各个所述第一分割区域进行字符识别,以正确识别出各个所述第一分割区域中的字符。调用预先确定的识别模型对各个所述第二分割区域进行字符识别,以正确识别出各个所述第二分割区域中的字符,该预先确定的识别模型可以是针对大量分割区域样本进行训练好的识别模型,也可以是比自身的ocr字符识别引擎识别方式更复杂、识别效果更好的识别引擎,在此不做限定。
进一步地,在其他实施例中,所述预先确定的分析模型为卷积神经网络(convolutionalneuralnetwork,简称cnn)模型,所述预先确定的分析模型的训练过程如下:
a、针对预先确定的理赔单据框架格式,获取预设数量(例如,50万个)的基于该理赔单据框架格式的理赔单据影像样本;
b、对每一个理赔单据影像样本按照该理赔单据框架格式的框线排布进行区域分割,并确定出各个理赔单据影像样本中ocr字符识别引擎识别错误的第三分割区域和ocr字符识别引擎识别正确的第四分割区域;
c、将所有第三分割区域归入第一训练集,将所有第四分割区域归入第二训练集;
d、分别从第一训练集和第二训练集中提取出第一预设比例(例如,80%)的分割区域作为待训练的分割区域,并将第一训练集和第二训练集中剩余的分割区域作为待验证的分割区域;
e、利用提取的各个待训练的分割区域进行模型训练,以生成所述预先确定的分析模型,并利用各个待验证的分割区域对生成的所述预先确定的分析模型进行验证;
f、若验证通过率大于等于预设阈值(例如,98%),则训练完成,或者,若验证通过率小于预设阈值,则增加理赔单据影像样本的数量,并重复执行所述步骤a、b、c、d、e,直至验证通过率大于或等于预设阈值。
本实施例中利用经大量理赔单据影像样本训练过的卷积神经网络模型来进行分割区域分析,能够准确分析出理赔单据的各个分割区域中可利用ocr字符识别引擎来正确识别字符的第一分割区域和无法利用ocr字符识别引擎来正确识别字符的第二分割区域,以便后续针对第一分割区域和第二分割区域分别采用不同的识别方式来进行准确的字符识别操作,从而提高对理赔单据中字符的识别精度。
进一步地,在其他实施例中,所述预先确定的识别模型为长短期记忆(longshort-termmemory,简称lstm)模型,所述预先确定的识别模型的训练过程如下:
获取预设数量(例如,10万)的区域样本,该区域样本可以是历史数据中对若干理赔单据按照其框架格式的框线排布进行区域分割后的分割区域样本。在一种实施方式中,可统一将分割区域样本中的字体设置为黑色,背景设置为白色,以便于进行字符识别。并将各个分割区域样本进行标注,如可将各个分割区域样本的名称命名为该分割区域样本所包含的字符以进行标注。
将预设数量的分割区域样本按照预设比例(例如,8:2)分为第一数据集和第二数据集,将第一数据集作为训练集,将第二数据集作为测试集,其中,第一数据集的样本数量比例大于或者等于第二数据集的样本数量比例。
将第一数据集送入lstm网络进行模型训练,每隔预设时间(例如每30分钟或每进行1000次迭代),对模型使用第二数据集进行测试,以评估当前训练的模型效果。例如,在测试时,可使用训练得到的模型对第二数据集中的分割区域样本进行字符识别,并将利用训练得到的模型对分割区域样本的字符识别结果与该分割区域样本的标注进行比对,以计算出训练得到的模型的字符识别结果与该分割区域样本的标注的误差。具体地,在计算误差时,可采用编辑距离作为计算标准,其中,编辑距离(editdistance),又称levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符,一般来说,编辑距离越小,两个串的相似度越大。因此,在以编辑距离作为计算标准来计算训练得到的模型的字符识别结果与该分割区域样本的标注的误差时,计算得到的误差越小,说明训练得到的模型的字符识别结果与该分割区域样本的标注的相似度越大;相反,计算得到的误差越大,说明训练得到的模型的字符识别结果与该分割区域样本的标注的相似度越小。
由于该分割区域样本的标注为该分割区域样本的名称也即该分割区域样本所包含的字符,因此,计算出的训练得到的模型的字符识别结果与该分割区域样本的标注的误差即为训练得到的模型的字符识别结果与该分割区域样本所包含的字符之间的误差,能反映出训练得到的模型识别出的字符与正确的字符之间的误差。记录每一次对训练的模型使用第二数据集进行测试的误差,并分析误差的变化趋势,若分析测试时的训练模型对分割区域样本的字符识别的误差出现发散,则调整训练参数如activation函数、lstm层数、输入输出的变量维度等,并重新训练,使测试时的训练模型对分割区域样本的字符识别的误差能够收敛。当分析测试时的训练模型对分割区域样本的字符识别的误差收敛后,则结束模型训练,将生成的训练模型作为训练好的所述预先确定的识别模型。
本实施例中,针对ocr字符识别引擎无法识别的区域,采用训练好的lstm模型进行识别,由于lstm模型为经大量分割区域样本训练过的,且对分割区域样本的字符识别的误差收敛的模型,配合lstm模型自身的长期记忆功能使该lstm模型在识别分割区域中的字符时,能利用模型记住的长期信息如上下文信息等,更加准确地识别出分割区域中的字符,从而进一步提高对理赔单据中字符的识别精度。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件来实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上参照附图说明了本发明的优选实施例,并非因此局限本发明的权利范围。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。另外,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本领域技术人员不脱离本发明的范围和实质,可以有多种变型方案实现本发明,比如作为一个实施例的特征可用于另一实施例而得到又一实施例。凡在运用本发明的技术构思之内所作的任何修改、等同替换和改进,均应在本发明的权利范围之内。