文档文件种类识别装置以及文档文件种类识别方法

文档序号:6332727阅读:335来源:国知局

专利名称::文档文件种类识别装置以及文档文件种类识别方法
技术领域
:本发明涉及一种文档文件种类识别装置,用于识别通过例如扫描读取而取得的文档图像的种类以及与文档图像的种类相对应的特征信息。
背景技术
:在记录纸张等记录介质上所记录的文档文件有多种。多种文档文件分别被扫描器读取而成为各文档图像。各文档图像分别适用根据各文档种类而预定的处理。当输入文档种类未知的文档图像时,文档处理装置识别文档图像的文档种类,并根据识别结果,对文档图像进行预定的处理。自动识别文档种类的方法是预先收集多个文档种类的特征,例如记录介质的大小、字符数等,并保存在数据库中。当输入文档种类未知的文档图像时,通过该方法,比较输入的文档图像中包括的特征与数据库中保存的文档种类的特征,并检索符合的文档种类。文档识别方法的技术公布在例如日本专利特开2001-318941号公报中。
发明内容本发明涉及一种文档文件种类识别装置,其包括提取部,用于提取表示文档文件中包含的文档的特征性信息的文档特征信息;评价部,用于评价所述文档特征信息提取部所提取的所述文档特征信息的妥当性;以及文档种类识别部,当所述文档特征信息具有妥当性时,所述文档种类识别部识别与所述文档特征信息提取部所提取的所述文档特征信息相对应的所述文档文件的种类。本发明还涉及一种文档文件种类识别方法,其包括提取表示文档文件中包含的文档的特征性信息的文档特征信息;评价所提取的所述文档特征信息的妥当性,以及在所述文档特征信息具有妥当性的情况下,识别与所提取的所述文档特征信息相对应的所述文档文件的种类。本发明还涉及一种记录介质,存储计算机可读的文档文件种类识别程序,包括根据保存在提取方法保存部中的提取方法信息,从文档文件中提取表示所述文档文件中包含的文档的特征性信息的文档特征信息,所述提取方法信息记载用于从所述文档文件中提取所述文档特征信息的按所述文档文件的种类而不同的多种方法;根据特征信息保存部中保存的参照文档特征信息,评价所提取的所述文档特征信息的妥当性,所述参照文档特征信息分种类作为应从所述文档文件提取的所述文档特征信息的参照;以及在所述文档特征信息具有妥当性的情况下,识别与提取的所述文档特征信息对应的所述文档文件的种类。图1是表示第一实施方式的文档文件种类识别装置的功能块构成图。图2是表示通过本装置识别的A国申请委托书格式的示例图。图3是表示通过本装置识别的来自cc专利事务所的原稿校阅委托书格式的示例图。图4是表示通过本装置识别的驳回对应讨论委托书格式的示例图。图5是表示用于通过本装置的提取部提取文档中的文档特征信息的提取方法信息的示例图。图6是表示本装置中特征信息保存部中保存的参照文档特征信息的示意图。图7是表示适用了本装置的文档(document)系统的构成图。图8是本装置的文档文件种类识别流程图。图9是表示一例通过本装置的提取部提取的文档特征信息的示例图。图10是表示一例本装置的文档文件保存部中保存的文档文件保存信息的示例图。图11是示出本装置的文档文件种类识别流程的变形例示意图。具体实施例方式以下,参照实施方式。图1表示文档文件种类的识别装置的功能块构成图。本装置包括扫描文件取得部1、文档种类识别部2、文档特征信息提取部(以下简称提取部)3、文档特征信息提取方法保存部(以下简称提取方法保存部)4、文档特征信息评价部(以下简称评价部)5、文档特征信息保存部6、文档文件登记部7、文档文件保存部8、文档文件显示部9。扫描文件取得部1扫描记录有文档的记录介质,并取得扫描图像,通过解析扫描图像取得包括文档特征信息的文档文件。记录有文档的记录介质包括例如记录有文档的记录纸张。文档特征信息表示文档文件中包括的文档的特征性信息。文档特征信息是清楚地表示例如文档的标题等文档内容的信息。文档文件包括字符信息、字符的布局信息。文档文件例如可包括PDF(portabledocumentformat)文件等。文档种类识别部2从扫描文件取得部1输入文档文件,并识别文档文件种类。文档文件种类包括例如专利申请的申请委托书、专利申请的原稿校阅委托书、用于应对专利申请的驳回理由的讨论委托书(驳回应对讨论委托书)。根据各种类,文档文件的文档特征信息各不相同。根据各种类,文档文件的格式各不相同。根据文档文件的各种类,格式分别是规定格式。文档文件按种类分别包括各种文档特征信息。例如申请委托书的文档特征信息包括例如A国申请委托书、B国申请委托书、C国申请委托书。图2是例如A国申请委托书Fl格式的一个示例。A国申请委托书Fl第1行写有“申请委托”、第2行写有“A国申请委托”。原稿校阅委托书的文档特征信息包括例如aa专利事务所、ΙΛ专利事务所、cc专利事务所。图3是来自例如cc专利事务所的原稿校阅委托书F2的格式的一个示例。原稿校阅委托书F2第1行写有“年月日”、第2行写有“...公司敬启”、第3行写有“cc专利事务所”。驳回应对讨论委托书例如包括有需要授权、不需要授权、其他。需要授权表示需要实现专利申请的授权。不需要授权表示不需要考虑专利申请的授权。图4是例如驳回应对讨论委托书F3的格式的一个示例。驳回应对讨论委托书F3在其中央部记载有需要确认(check)的文字,例如需要授权、不需要授权、以及其他确认项。提取部3通过文档种类识别部2接收来自扫描文件获取部1的文档文件,并提取文档文件中包括的表示文档的特征性信息的文档特征信息。提取部3可对提取方法保存部4进行信息读取。在提取方法保存部4中保存用于从文档文件中提取文档特征信息的提取方法信息100。提取方法信息100按文档文件种类定义多种方法。图5是提取方法信息100的示例图。提取方法信息100成对地记录文档种类与文档特征信息的提取方法。提取方法信息100按照作为文档种类的申请委托书、原稿校阅委托书、驳回应对讨论委托书分别记录文档特征信息的提取方法。对于每一种文档文件种类例如申请委托书、原稿校阅委托书、驳回应对讨论委托书,提取方法信息100记录用于提取文档特征信息的文档文件中的位置信息。申请委托书的提取方法例如是“取得第2行的文字”。原稿校阅委托书的提取方法例如是“取得第3行的文字”。驳回应对讨论委托书的提取方法例如是“取得文档中央的已经被确认的语句”。提取部3根据提取方法保存部4保存的提取方法信息100从文档文件中提取文档特征信息。具体地说,提取部3将提取方法保存部4中保存的提取方法信息100中记录的全部方法应用于文档文件,并提取文档特征信息。提取部3依次设定文档文件是多个种类中的一种,按照这些依次设定的顺序,基于与种类对应的方法,从文档文件中提取文档特征信息。提取部3依次设定为例如申请委托书、原稿校阅委托书、驳回应对讨论委托书,通过与依次设定的申请委托书、原稿校阅委托书、驳回应对讨论委托书对应的方法,从文档文件中提取文档特征信息。评价部5评价通过提取部3提取的文档特征信息的妥当性。评价部5根据特征信息保存部6中保存的参照文档特征信息评价通过提取部3提取的文档特征信息的妥当性。评价部5可对特征信息保存部6读取信息。在特征信息保存部6中,按照多个种类保存参照文档特征信息101,该参照文档特征信息101为作为通过提取部3提取的文档特征信息的参照的文档特征信息。图6是在特征信息保存部6中保存的参照文档特征信息101的示意图。与例如多个文档文件种类的每一种对应地分别定义参照文档特征信息101。参照文档特征信息101成对地定义文档种类和作为参照的文档特征信息。作为文档文件种类,参照文档特征信息101记录申请委托书、原稿校阅委托书、驳回应对讨论委托书。在申请委托书的文档特征信息中记录例如A国申请委托书、B国申请委托书、C国申请委托书。在原稿校阅委托书的文档特征信息中记录例如aa专利事务所、ΙΛ专利事务所、cc专利事务所。在驳回应对讨论委托书的文档特征信息中定义例如有需要授权、不需要授权、其他。评价部5将在特征信息保存部6中保存的全部参照文档特征信息101应用于通过提取部3提取的文档特征信息,并评价文档特征信息的妥当性。如上所述,文档种类识别部2识别文档文件种类。在这种情况下,根据通过评价部5评价的妥当性的结果,若文档特征信息有妥当性,则文档种类识别部2识别与通过提取部3提取的文档特征信息对应的文档文件种类。文档文件登记部7将通过文档种类识别部2识别的文档文件种类、文档文件以及文档特征信息相关联地保存在文档文件保存部8中。文档文件显示部9将文档文件保存部中8保存的文档文件单独显示给外部,或者将文档文件保存部中8保存的文档文件与文档特征信息两者同时显示给外部。文档文件显示部9将文档文件保存部8中保存的文档文件和文档文件相关联的文档文件名、文档文件种类或文档特征信息一起显示给用户。图7是适用了本装置的文档系统(documentsystem)10的构成图。文件系统10包括数字复合装置(以下称为MFP)11。MFP11作为记录有文档的记录介质的复印机、在记录介质上打印从外部发送来的图像数据的打印机等进行动作。MFP11对作为文档种类的申请委托书、原稿校阅委托书、驳回应对讨论委托书这三种进行处理。MFP11与扫描器12、控制面板13相连接。扫描器12扫描记录有文档的记录介质并取得扫描图像。控制面板13例如接受用户的操作并设定MFP11的各种动作。MFP11通过局域网(LAN)14与文件处理服务器15、文件管理服务器16、客户个人电脑(以下称为客户PC)17相连接。文件处理服务器15例如对文档文件进行各种处理。文件管理服务器16例如管理文档文件。客户PC17例如是客户使用的个人电脑。MFP11包括扫描文件获取部1。文件处理服务器15包括文档种类识别部2、提取部3、提取方法保存部4、评价部5、文档特征信息保存部6。文件管理服务器16包括文档文件登记部7、文档文件保存部8、文档文件显示部9。客户PC17包括文档文件显示部9。客户PC17具有Web浏览器。客户PC17接受用户的操作,可通过Web浏览器访问由文档文件显示部9提供的文档文件以及与文档文件相关联的文档文件种类或文档特征信息。客户PC17可访问文档文件保存部8,可阅览文档文件以及与文档文件相关联的文档文件种类或文档特征信息。MFP11、文档处理服务器15、文档管理服务器16、客户PC17通过局域网15相连接,可相互进行数据的发送和接收。文件处理服务器15具有程序存储器15m。程序存储器15m存储可在文档处理服务器15上安装的电脑可读取的文档文件种类识别程序。文档文件种类识别程序根据提取方法保存部4中保存的提取方法信息100,从文档文件中提取表示文档文件中包含的文档的特征性信息的文档特征信息,根据特征信息保存部6中保存的参照文档特征信息101评价提取的文档特征信息的妥当性,若文档特征信息有妥当性,则与提取的文档特征信息相对应的文档文件种类进行识别。提取方法信息100记载用于从文档文件提取文档特征信息的基于文档文件种类的多种方法。参照文档特征信息101按照多个种类作为用于应该从文档文件提取的文档特征信息的参照。另外,文档文件种类识别程序也可以在文档处理服务器15或文档管理服务器16两者的一者中或分散至两者并进行存储。接下来,参照图8所示的文档文件种类识别流程图,对扫描记录有文档的记录介质,并将扫描文件登记在文档文件保存部8的处理进行说明。扫描器12扫描记录有文档的记录介质、例如写有图3所示的EF公司敬启、来自cc专利事务所的原稿校阅的委托的记录介质,并取得扫描图像(ACTl)。扫描文件取得部1接收扫描器12取得的扫描图像,解析扫描图像并通过包括文档特征信息的文档文件。具体而言,扫描文件通过部1对扫描图像实施光学式字符识别(OCR)处理(ACT2)。扫描文件取得部1实施OCR处理,获取字符位于扫描图像中的何处这样的布局信息,并取得记载了什么这样的字符信息等。扫描文件取得部1综合扫描图像、布局信息、字符信息,并制作成文档文件。文档文件的文件格式例如是PDF文件。提取部3为了对文档特征信息的提取方法的使用次数进行计数而设定i=1(ACT3)。提取部3依次设定文档文件为多个种类中的一种,按照这些依次设定的顺序,基于与所设定的该种类相对应的方法从文档文件中提取文档特征信息。例如提取部3将如图5所示的提取方法信息100中例如申请委托书设为第i=1、将原稿校阅委托书设为第i=2、将驳回应对讨论委托书设为第i=3。对于文档种类未知的文档文件,提取部3应用与提取方法保存部4中保存的所有文档种类对应的提取方法(ACT4-6)。以下说明提取方法。尽管作为对象的文档文件的文档种类未知,提取方法暂时设定其为某一文档种类,并针对所设定的文档种类应用提取方法。提取部3将第i=1的申请委托书的提取方法应用至文档文件,并提取文档特征信息(ACT4)。也就是说,提取部3设定文档文件为申请委托书,并应用与申请委托书对应的提取方法。申请委托书的提取方法如图5所示,例如为“获取第2行文字”。提取部3根据提取方法“获取第2行文字”,从图3所示的原稿校阅委托书F2的文档文件取得第2行文字。提取部3取得“EF公司敬启”。提取部3判断是否已将全部的提取方法(i=3)应用于图5所示的原稿校阅委托书F2的文档文件(ACT5)。其判断的结果是已将第i=1的申请委托书的提取方法应用于文档文件,提取部3使i=i+1结束计数,并再次返回ACT4,将第i=2的原稿校阅委托书的提取方法应用于文档文件,并提取文档特征信息。也就是说,提取部3设定文档文件为原稿校阅委托书,并应用与原稿校阅委托书对应的提取方法。原稿校阅委托书的提取方法如图5所示,是例如“获取第3行文字”。提取部3根据提取方法“获取第3行文字”,从图3所示的原稿校阅委托书F2的文档文件取得第3行文字。提取部3取得文字列“cc专利事务所”。提取部3再次判断是否已将全部的提取方法(i=3)应用于图5所示的原稿校阅委托书F2的文档文件(ACT5)。其判断的结果是已将第i=2的原稿校阅委托书的提取方法应用于文档文件,因此,提取部3使i=i+1结束计数,并再次返回ACT4,将第i=3的驳回应对讨论委托书的提取方法应用于文档文件并提取文档特征信息。也就是说,提取部3设定文档文件为驳回应对讨论委托书,并应用与驳回应对讨论委托书对应的提取方法。驳回应对讨论委托书的提取方法如图5所示例如是“获取文档中央的已经被确认的文字”。提取部3对如图3所示的原稿校阅委托书F2的文档文件实行“获取文档中央的已经被确认的文字”。图3所示的原稿校阅委托书F2的文档文件不存在已经被确认的文字。提取部3获得表示原稿校阅委托书F2的文档文件中不存在“文档中央的已经被确认的文字”的“无效(null)”的结果。提取部3再次判断是否已将全部的提取方法(i=3)应用于图3所示的原稿校阅委托书F2的文档文件(ACT5)。其判断的结果是已将第i=3的驳回应对讨论委托书的提取方法应用于文档文件,提取部3判断已将全部的提取方法(i=3)应用于图3所示的原稿校阅委托书F2的文档文件。图9是通过提取部3提取的文档特征信息的一个示例。在设定文档文件为申请委托书的情况下,提取了“EF公司敬启”。在设定文档文件为原稿校阅委托书的情况下,提取了文字列“cc专利事务所”。在设定文档文件为驳回应对讨论委托书的情况下,是“null”。评价部5评价通过提取部3提取的文档特征信息的妥当性。评价部5根据特征信息保存部6中保存的如图6所示的参照文档特征信息101,评价通过提取部3提取的文档特征信息的妥当性(ACT7)。这种情况下,评价部5将特征信息保存部6中保存的全部参照文档特征信息101应用于通过提取部3提取的文档特征信息,并评价文档特征信息的妥当性。评价部5评价在设定如图9所示的原稿校阅委托书F2的文档文件为申请委托书的情况下获得的“EF公司敬启”的字符列是否妥当。参照图6所示的参照文档特征信息101,申请委托书的文档特征信息应该是A国申请委托、B国申请委托、C国申请委托的三者之一。另一方面,实际取得的文档特征信息如图9所示是“EF公司敬启”,与A国申请委托、B国申请委托、C国申请委托的任一个都不符合。因此,评价部5将设定原稿校阅委托书F2的文档文件为申请委托书并提取的“EF公司敬启”的文档特征信息评价为不妥当。评价部5评价在设定如图9所示的原稿校阅委托书F2的文档文件为原稿校阅委托书的情况下获得的“cc专利事务所”的字符列是否妥当。参照图6所示的参照文档特征信息101,原稿校阅委托书的文档特征信息应该是aa专利事务所、bb专利事务所、cc专利事务所的三者之一。另一方面,实际获得的文档特征信息如图9所示是“cc专利事务所”,符合aa专利事务所、bb专利事务所、cc专利事务所中的一个。因此,评价部5将设定原稿校阅委托书F2的文档文件为原稿校阅委托书而提取的“cc专利事务所”的文档特征信息评价为妥当。评价部5评价在设定如图9所示的原稿校阅委托书F2的文档文件为驳回应对讨论委托书的情况下获得的“null”字符列是否妥当。参照如图6所示参照文档特征信息101,驳回应对讨论委托书的文档特征信息应该是需要授权、不需要授权、其他这三者之一。另一方面,实际取得的文档特征信息如图9所示是“null”,不符合需要授权、不需要授权、其他中的任一个。因此,评价部5将设定原稿校阅委托书F2的文档文件为驳回应对讨论委托书而提取的“null”文档特征信息评价为不妥当。其结果是,评价部5评价在设定原稿校阅委托书F2的文档文件为原稿校阅委托书的情况下获得的“cc专利事务所”的字符列为妥当。文档种类识别部2接受来自评价部5的评价结果,并确定原稿校阅委托书F2的文档文件的文档种类及文档特征信息(ACT8)。评价设定了文档种类的情况下的文档特征信息的妥当性的结果是,只有将文档文件设定为原稿校阅委托书的情况下,才判断为妥当的。文档种类识别部2确定原稿校阅委托书F2的文档文件的文档种类为原稿校阅委托书、文档特征信息为cc专利事务所。文档文件登记部7将文档种类识别部2识别的文档文件种类、文档文件以及文档特征信息相关联地保存在文档文件保存部8(ACT9)中。图10是文档文件保存部8中保存的文档文件保存信息102的一例示意图。文档文件保存信息102将文档文件名、文档种类以及文档特征信息相关联地进行保存。文档文件显示部9将在文档文件保存部8中保存的文档文件和与文档文件相关联的文档文件名、文档文件种类或文档特征信息一起显示给用户。如上所述,根据上述实施方式,根据提取方法信息100从文档文件中提取文档文件包含的文档特征信息,并根据参照文档特征信息101评价提取的文档特征信息的妥当性,若文档特征信息有妥当性,则识别对应于被提取的文档特征信息的文档文件种类。因此,即使取入文档种类未知的记录介质的文档文件,也可同时确定文档文件的文档种类与文档特征信息。对于文档文件的文档种类与文档特征信息的的确定,不用经过判定文档文件的文档种类、其后提取与文档种类对应的特征信息这样两个阶段的步骤。文档文件显示部9可接受用户的操作,并将文档文件保存部8中保存的文档文件名、文档文件种类、文档特征信息显示给用户。用户除了知道文档文件名,还可以知道文档文件种类、文档特征信息。上述实施方式可进行如下的变形。图11是图8所示的文档文件种类识别流程图的变形例。对与图8所示的文档文件种类识别流程图的不同之处进行说明。提取部3将第i=1的申请委托书的提取方法应用于文档文件,并提取文档特征信息(ACT4)。评价部5根据特征信息保存部6中保存的图6所示的参照文档特征信息101,评价由提取部3提取的文档特征信息的妥当性(ACT7)。提取部3将全部的提取方法(i=3)应用于图5所示的原稿校阅委托书F2的文档文件,并判断是否评价了通过全部的提取方法提取的文档特征信息的妥当性(ACT5)。判断的结果是,如果将全部的提取方法(i=3)应用于文档文件、且未评价妥当性,则提取部3使i=i+1结束计数,并再次返回ACT4,将下一个原稿校阅委托书的提取方法应用于文档文件,并提取文档特征信息。判断的结果是,如果将全部的提取方法(i=3)应用于文档文件、且已评价妥当性,则文档种类识别部2接受来自评价部5的评价结果,并确定原稿校阅委托书F2的文档文件的文档种类及文档特征信息(ACT8)。文档文件种类不限于例如申请委托书、原稿校阅委托书、驳回应对讨论委托书,也可应用于各种委托书等的识别。申请委托书、原稿校阅委托书、驳回应对讨论委托书等各种文档文件中的文档特征信息不限于图2所示的A国申请委托书、B国申请委托书、C国申请委托书.....aa专利事务所、bb专利事务所等,也可使用文档文件中其他的特征性信息。文档文件的文档特征信息的提取方法也可根据各种类的各自格式变更文档文件中的提取位置。文档文件的格式并不限定于规定格式。例如,从格式中提取特征信息时,对规定的语句,将前后的在字符列作为特征信息并提取。因此,可形成不依赖于文档中的字符的绝对位置的提取方法。也可从非定型格式中提取特征信息。11尽管说明了上述实施方式,但这些实施方式仅仅是通过例子来表达的,并非有意限制发明的范围。实际上,这里所说明的实施方式可以多种其他形式来实现。而且,可以对这里所说明的实施方式做出各种省略、替代与改变,但并不与本发明的思想有所区别。附加的声明及其等价体意在包括那些属于本发明的范围和思想之中的形式或改动。权利要求1.一种文档文件种类识别装置,包括提取部,用于提取表示文档文件中包含的文档的特征性信息的文档特征信息;评价部,用于评价所述提取部所提取的所述文档特征信息的妥当性;以及文档种类识别部,当所述文档特征信息具有妥当性时,所述文档种类识别部识别与所述提取部所提取的所述文档特征信息相对应的所述文档文件的种类。2.根据权利要求1所述的文档文件种类识别装置,其中,所述文档文件有多个种类,各种类的所述文档特征信息互不相同,所述文档文件种类识别装置还包括用于保存提取方法信息的提取方法保存部,所述提取方法信息记载了用于从所述文档文件提取所述文档特征信息的、按所述文档文件的种类而不同的多种方法,其中,所述提取部根据所述提取方法保存部中保存的所述提取方法信息,从所述文档文件中提取所述文档特征信息。3.根据权利要求1所述的文档文件种类识别装置,其中,所述文档文件有多个种类,各种类的所述文档特征信息互不相同,所述文档文件种类识别装置还包括特征信息保存部,对应所述多个种类的各个种类,保存应被所述提取部提取的所述文档特征信息的参照文档特征信息,其中,所述评价部根据在所述特征信息保存部中保存的所述参照文档特征信息,评价所述提取部所提取的所述文档特征信息的妥当性。4.根据权利要求1所述的文档文件种类识别装置,还包括文件取得部,扫描记录有文档的记录介质以取得扫描图像,并解析所述扫描图像以取得包括所述文档特征信息的所述文档文件;文档文件保存部;文档文件登记部,将所述文档种类识别部所识别的所述文档文件的种类、所述文档文件、所述文档特征信息相关联地保存在所述文档文件保存部;以及文档文件显示部,将所述文档文件保存部中保存的所述文档文件单独进行显示,或者将所述文档文件保存部中保存的所述文档文件与所述文档特征信息两者一起显示。5.根据权利要求2所述的文档文件种类识别装置,其中,所述文档文件有多个种类,各种类的所述文档特征信息互不相同,所述提取方法信息对每种所述文档文件的种类记载用于提取所述文档特征信息的所述文档文件中的位置信息。6.根据权利要求2所述的文档文件种类识别装置,其中,所述提取部将所述提取方法保存部中存储的所述提取方法信息中记载的所有所述方法应用于所述文档文件,并提取所述文档特征信息。7.根据权利要求2所述的文档文件种类识别装置,其中,所述提取部依次假设所述文档文件是所述多个种类中的一种,按照这些依次假设的种类的顺序,根据与假设的所述种类对应的所述方法,从所述文档文件中提取所述文档特征fn息ο8.根据权利要求2所述的文档文件种类识别装置,其中,所述评价部将所述特征信息保存部中保存的全部所述参照文档特征信息应用于所述文档特征信息提取部所提取的所述文档特征信息,并评价所述文档特征信息的妥当性。9.根据权利要求3所述的文档文件种类识别装置,其中,所述文档文件有多个种类,各种类的所述文档特征信息互不相同,与所述文档文件的所述多个种类中的每一种相对应地分别记载所述参照文档特征信肩、ο10.根据权利要求1所述的文档文件种类识别装置,其中,所述文档文件有多个种类,各种类的所述文档特征信息互不相同,对于所述多个种类的所述文档文件中的每一种,多个所述文档文件的各所述文档特征信息的格式分别为固定格式。11.一种文档文件种类识别方法,包括提取表示文档文件中包含的文档的特征性信息的文档特征信息;评价所提取的所述文档特征信息的妥当性;以及在所述文档特征信息具有妥当性的情况下,识别与所提取的所述文档特征信息相对应的所述文档文件的种类。12.根据权利要求11所述的文档文件种类识别方法,其中,所述文档文件有多个种类,各种类的所述文档特征信息互不相同,所述文档文件种类识别方法还包括将提取方法信息保存至提取方法保存部,所述提取方法信息记载了用于从所述文档文件提取所述文档特征信息的、按所述文档文件的种类而不同的多种方法,在所述文档文件种类识别方法中,所述文档特征信息的提取是指根据所述提取方法保存部中保存的所述提取方法信息,从所述文档文件中提取所述文档特征信息。13.根据权利要求12所述的文档文件种类识别方法,其中,所述提取方法信息对每种所述文档文件的种类记载用于提取所述文档特征信息的所述文档文件中的位置信息。14.根据权利要求11所述的文档文件种类识别方法,其中,所述文档文件有多个种类,各种类的所述文档特征信息互不相同,所述文档文件种类识别方法还包括按所述多个种类将应被提取的所述文档特征信息的参照文档特征信息保存至特征信息保存部,在所述文档文件种类识别方法中,所述妥当性的评价是指根据所述特征信息保存部中保存的所述参照文档特征信息,评价提取的所述文档特征信息。15.根据权利要求14所述的文档文件种类识别方法,其中,与所述多个种类的文档文件的每一种相对应地分别记载所述参照文档特征信息。16.根据权利要求11所述的文档文件种类识别方法,还包括扫描记录有文档的记录介质并取得扫描图像;解析所述扫描图像,并取得包括所述文档特征信息的所述文档文件;将识别出的所述文档文件的种类、所述文档文件和所述文档特征信息相关联地保存至文档文件保存部;以及将所述文档文件保存部中保存的所述文档文件单独进行显示,或者将所述文档文件保存部中保存的所述文档文件与所述文档特征信息两者一起显示。17.根据权利要求12所述的文档文件种类识别方法,其中,所述文档特征信息的提取是将所述提取方法保存部中存储的所述提取方法信息中记载的所有所述方法应用于所述文档文件,并提取所述文档特征信息。18.根据权利要求12所述的文档文件种类识别方法,其中,所述文档特征信息的提取是依次假设所述文档文件是所述多个种类中的一种,按照这些依次假设的种类的顺序,根据与假设的所述种类对应的所述方法,从所述文档文件中提取所述文档特征信息。19.根据权利要求14所述的文档文件种类识别方法,其中,所述妥当性的评价是将所述特征信息保存部中保存的全部所述参照文档特征信息应用于提取的所述文档特征信息,并评价所述文档特征信息的妥当性。全文摘要本发明涉及一种文档文件种类识别装置以及文档文件种类识别方法。该文档文件种类识别装置包括提取部,用于提取表示文档文件中包含的文档的特征性信息的文档特征信息;评价部,用于评价所述文档特征信息提取部所提取的所述文档特征信息的妥当性;以及文档种类识别部,当所述文档特征信息具有妥当性时,所述文档种类识别部识别与所述文档特征信息提取部所提取的所述文档特征信息相对应的所述文档文件的种类。文档编号G06K9/20GK102054171SQ20101029291公开日2011年5月11日申请日期2010年9月20日优先权日2009年10月30日发明者富沢肇申请人:东芝泰格有限公司,株式会社东芝
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1