一种提取文档结构化信息的方法及装置的制造方法_2

文档序号:9888099阅读:来源:国知局
点来选择模板,该模板更符 合当前文档的特点,因此使用其来提取结构话信息,更加准确,此外,不同的文档可以根据 其特点选择不同的模板,该方案可以应用于多种多样的文档中。
【附图说明】
[0044] 为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合 附图,对本发明作进一步详细的说明,其中
[0045] 图1是本发明实施例1的提取文档结构化信息的方法流程图;
[0046] 图2是本发明实施例2的提取文档结构化信息的方法流程图;
[0047] 图3是本发明实施例中的提取文档结构化信息的装置的结构框图。
【具体实施方式】
[0048] 实施例1 :
[0049] 本实施例中提供一种提取文档结构化信息的方法,如图1所示,包括如下步骤:
[0050] S1、提取文档的字符块信息。
[0051 ] S2、根据文档中字符块信息选择结构化信息模板。
[0052] 本实施例中,已经预先建立好了结构化信息模板,所述结构化信息模板中包括文 档属性及其对应的属性内容。文档属性是指文档中的正文、标题、目录等,属性内容则是指 该属性对应的字体、字号或格式,如下:
[0053] 表 1
[0054]
[0055] 每个结构化信息模板中存储了多种属性和属性内容,根据文档中存在的字体、字 号、格式等内容信息,通过匹配的方式,选择包含所有这些信息的结构化信息模板作为选定 的模板。
[0056] S3、根据所述结构化信息模板对字符块进行聚类、排序后合并为文本块。当选定模 板后,根据字符块中的文字对应的字体属性,如字体、字号等信息,与结构化信息模板中的 属性内容进行比对,将一致的归为一类进行聚类。如文档中字符块中为四号,宋体,而在结 构化信息模板中四号、宋体对应的是正文,则将这些内容聚类。
[0057] S4、根据所述结构化信息模板和所述文本块形成结构化文档。根据结构化信息模 板中的属性及属性内容,将属性内容相同的文本块作为该属性的结构信息,获得结构化文 档。
[0058] 将上述聚类后的文本,根据与结构化信息模板中的属性内容,对应到相应的属性 下,如将上述聚类后的四号、宋体的内容对应到正文下,将楷体、二号的文本块关联到标题 中,这样就得到了结构化文档。
[0059] 该方案中,根据当前文档的特点来选择模板,该模板更符合当前文档的特点,因此 使用其来提取结构话信息,更加准确,此外,不同的文档可以根据其特点选择不同的模板, 该方案可以应用于多种多样的文档中。本发明对现有技术中存在的只针对只适用一种文档 的结构化信息提取方法进行了改进,采用多套模板的方式,使各种复杂的版面信息根据排 版样式选择不同的模式,以提高获取版面信息的准确率。同时该方法不仅适用于PDF文档, 还适用于CEBX、0FD等所有的版式文档。此外,现有的版式文档结构化的过程存在准确率不 高、适用范围较小、处理缓慢的现象,本发明就是在现有技术的基础上,通过模板的方式进 行改进,以提高版式文档提取结构化信息的处理速度以及准确率。
[0060] 在其他的实施方式中,还包括建立结构化信息模板的步骤,所述结构化信息模板 中包括文档属性及其对应的属性内容。如该模板中包括正文、标题等属性,以及他们对应的 属性内容,如正文或标题中的字体值、字号值、格式值,该结构化信息模板根据需要设置为 尽量多的不同形式,保证每种文档都有其对应的合理模板,这样就可以提高结构化信息的 获取精度。
[0061] 进一步地,所述根据文档中字符块信息选择结构化信息模板的过程,包括首先,获 取字符块信息中存在的属性内容;然后,将该属性内容与所述结构化信息模板中的信息内 容匹配,最后,选择匹配程度最高的结构化信息模板。
[0062] 此处,选择结构化信息模板的依据是该模板中的属性内容与当前文档字符块中属 性内容一致,也就是如果当前文本的字库块中存在四号楷体、二号宋体字,则选择属性内容 中也存在这些内容的模板,为后续匹配提供依据。
[0063] 在进一步优化的实施方式中,所述结构化信息模板中还设置有字号容忍度系数、 和/或字符块之间的位置关系容忍系数。因此根据所述结构化信息模板对字符块进行聚 类、排序后合并为文本块的处理中,还包括:根据所述结构化信息模板中的字号容忍度系 数、和/或字符块之间的位置关系容忍系数,对字符块进行聚类生成文本块。由于字号匹 配、位置等都具有不可避免的误差,因此该方案中还提供字号容忍度系数、位置关系容忍系 数,保证能够顺利完成匹配。
[0064] 实施例2 :
[0065] 本发明中提供一种提取文档结构化信息的方法,旨在高效、便捷、准确的提取版式 文档结构信息并支持形成结构化版式文档。该发明大致分为五个步骤,例如对应某本roF 书籍,【具体实施方式】如下,流程图如图2所示:
[0066] -、导入版式文档,解析并提取文档的字符块信息。本实施例是针对版式文档提取 结构化信息,所有的版式文档均可应用此方法进行处理,包括H)F、CEBX、0FD等。根据文档 中存储的信息提取文档的字符块信息(包括内容、位置信息、字体等等)。
[0067] 二、选择模板。根据第一步提取到的大量字符块的信息,从中抽取一部分字符块信 息,如所有奇数页的字符块信息,通过其中的字体、字号、距离等等信息,与结构化信息模板 中设置的字体、字号、距离等值比较,识别出匹配度最高的模板,此例中使用模板A。
[0068] 在本实施例中,已经预先设置好了结构化信息模板,在每个模板中,设置好了各个 属性及其对应的属性内容。为了更好的对字符块匹配,还可以在模板中设置字号容忍系数, 以及字符块之间的位置关系容忍系数阈值等等
[0069] 三、据模板对字符块进行聚类、排序后合并为文本块。根据步骤二中选取的模板A, 取出其中所设的字号容忍系数,以及字符块之间的位置关系容忍系数阈值等等,判断第一 步中得到的字符块是否属于同一文本内容,若根据这些阈值,得出这些字符块位置相邻、字 号相近且不超过容忍度系数(此例中,最大容忍字号差别系数为(:_= 0. 1,最大容忍水平 方向距离系数为Dx_= 0. 9,最大容忍垂直方向距离系数为D y_= 0. 9,即字符块字号差别 C〈C_,且DX〈DX_,Dy〈Dy_),则可判断这些字符块属于同一文本块,从而来对字符块进行聚 类、排序,进而生成一个个文本块。
[0070] 四、据模块定义文本块属性并关联成文。由第三步生成的文本块,结合第二步选取 的模板A,据模板中所设定的关于字号、格式以及容忍度系数等等的预设值(此例中,临界 字号大小阈值为13pt,格式为无格式,容忍度系数为0. 2),结合文本块的相应信息,将文本 块定义为各个属性,如:标题、正文等。再将标题与正文进行关联,最终形成完整的结构化文 档。
[0071] 五、据需求将标题区分为须要内容。事实上,在第四步,该发明已经能够得到完整 的已经进行标题与正文关联的结构化文档信息了,但是可能根据客户需求,需要对标题进 行具体定义,例如目录、版权、附录等等。因此,该发明可以对标题内容进行文字匹配,来确 定该目录是何内容,以增强用户体验,并简化后续操作。
[0072] 本实施例中的提取文档结构化信息的方法,首先需要导入版式文档,解析并提取 文档的字符块信息;其次依据这些字符块信息,选择匹配度最高的模板;接着,根据模板中 的阈值对字符块进行聚类与排序,并将聚类、排序后的字符块合并为文本块;然后再依据模 板中的预设值定义这些文本块的标题、正文、页码等属性,将其关联成文;最后,据需求将标 题区分为须要的内容(如目录、附录、版权等待)。该方案采用多套模板的方式,而不依赖于 任何流式信息,可以使得各种复杂的版式文档均可快速有效的获取准确率相当高的结构化 文档信息。并且其不仅局限于提取结构化目录信息,还可提取版权页、附录等等特殊页面的 信息,扩展了使用广度,提升用户体验,方便后续功能的添加。
[0073] 实施例3 :
[0074] 本实施例中提供一种提取文档结构化信息的装置,如图3所示,包括:
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1