一种文件类型识别方法及装置制造方法
【专利摘要】本发明提供一种文件类型识别方法及装置,用以提供一种准确性高、快捷方便的文件类型识别方法。该方法包括:提取第一文件的文本特征信息;将所述第一文件的文本特征信息与预设文件类型的文本特征信息进行匹配比较;当所述第一文件的文本特征信息与预设文件类型的文本特征信息匹配时,确定所述第一文件的文件类型为所述预设文件类型。上述技术方案,能够准确地、快捷方便地识别出文件类型。
【专利说明】一种文件类型识别方法及装置
【技术领域】
[0001]本发明涉及文件处理【技术领域】,尤其涉及一种文件类型识别方法及装置。
【背景技术】
[0002]在信息技术飞速发展的今天,人们在各种社会和经济活动中产生大量的数字信息,企业信息技术基础设施建设规模不断扩大,IT监控、运维系统也得到广泛运用,同时各种传感器、智能家电产生的数据,以及各种交易系统(证券交易系统、电子商务交易系统)产生的日志数量巨大,格式也不尽相同,很难得到利用。
[0003]由于日志的格式多种多样,想要利用日志价值首先需要对日志类型进行准确识另IJ,当前技术对日志类型的识别主要依靠用户预先定义日志类型,如在上传日志前配置日志文件路径或日志来源所对应的日志类型。用户在上传日志前往往需要进行相关配置,增添了不必要的负担,不够灵活;另外,人工操作也可能出错。
【发明内容】
[0004]为克服相关技术中存在的问题,本发明实施例提供一种文件类型识别方法及装置,用以提供一种准确性高、快捷方便的文件类型识别方法。
[0005]根据本发明实施例的第一方面,提供一种文件类型识别方法,包括:
[0006]提取第一文件的文本特征信息,所述文本特征信息包括字符串特征信息或者文本模板特征信息;
[0007]将所述第一文件的文本特征信息与预设文件类型的文本特征信息进行匹配比较;
[0008]当所述第一文件的文本特征信息与预设文件类型的文本特征信息匹配时,确定所述第一文件的文件类型为所述预设文件类型。
[0009]所述将所述第一文件的文本特征信息与预设文件类型的文本特征信息进行匹配比较,包括:
[0010]将所述第一文件的文本特征信息与所述第一文件的来源对应的文件类型的文本特征信息进行匹配比较。
[0011]在一个实施例中,当所述文本特征信息为文本模板特征信息时,所述提取第一文件的文本特征信息,包括:按照符号在第一文件中的出现顺序提取所述第一文件中的符号,并将提取的符号按照出现顺序排列生成所述第一文件的符号特征信息;
[0012]所述将所述第一文件的文本特征信息与预设文件类型的文本特征信息进行匹配比较,包括:将所述第一文件的符号特征信息与预设文件类型的符号特征信息进行匹配比较;
[0013]当所述第一文件的文本特征信息与预设文件类型的文本特征信息匹配时,确定所述第一文件的文件类型为所述预设文件类型,包括:当所述第一文件的符号特征信息与预设文件类型的符号特征信息匹配时,确定所述第一文件的文件类型为所述预设文件类型。
[0014]在一个实施例中,所述方法还包括:
[0015]接收来自所述来源的第二文件;
[0016]接收输入的所述第二文件的文件类型;
[0017]提取所述第二文件的文本特征信息;
[0018]将所述第二文件的文件类型存储为所述预设文件类型,将所述第二文件的文本特征信息存储为所述预设文件类型的文本特征信息。
[0019]在一个实施例中,所述确定所述第一文件的文件类型为所述预设文件类型之后,所述方法还包括:
[0020]显示验证信息,所述验证信息用于请求用户确认所述第一文件的文件类型是否为所述预设文件类型;
[0021]接收输入的验证结果,所述验证结果包括用于表明所述用户已确认所述第一文件的文件类型为所述预设文件类型的第一结果、或者用于表明所述用户已否认所述第一文件的文件类型为所述预设文件类型的第二结果;
[0022]当接收到所述第一结果时,将所述第一文件的文件类型设置为所述预设文件类型;当接收到所述第二结果时,继续识别所述第一文件的文件类型。
[0023]根据本发明实施例的第二方面,提供一种文件类型识别装置,包括:
[0024]提取模块,用于提取第一文件的文本特征信息,所述文本特征信息包括字符串特征信息或者文本模板特征信息;
[0025]比较模块,用于将所述第一文件的文本特征信息与预设文件类型的文本特征信息进行匹配比较;
[0026]确定模块,用于当所述第一文件的文本特征信息与预设文件类型的文本特征信息匹配时,确定所述第一文件的文件类型为所述预设文件类型。
[0027]在一个实施例中,所述比较模块包括:
[0028]比较子模块,用于将所述第一文件的文本特征信息与所述第一文件的来源对应的文件类型的文本特征信息进行匹配比较。
[0029]在一个实施例中,所述提取模块包括:
[0030]提取子模块,用于当所述文本特征信息为文本模板特征信息时,按照符号在第一文件中的出现顺序提取所述第一文件中的符号,并将提取的符号按照出现顺序排列生成所述第一文件的符号特征信息;
[0031]所述比较模块包括:
[0032]比较子模块,用于将所述第一文件的符号特征信息与预设文件类型的符号特征信息进行匹配比较;
[0033]所述确定模块,包括:
[0034]确定子模块,用于当所述第一文件的符号特征信息与预设文件类型的符号特征信息匹配时,确定所述第一文件的文件类型为所述预设文件类型。
[0035]在一个实施例中,所述装置还包括:
[0036]第一接收模块,用于接收来自所述来源的第二文件;
[0037]第二接收模块,用于接收输入的所述第二文件的文件类型;
[0038]提取模块,用于提取所述第二文件的文本特征信息;
[0039]存储模块,用于将所述第二文件的文件类型存储为所述预设文件类型,将所述第二文件的文本特征信息存储为所述预设文件类型的文本特征信息。
[0040]在一个实施例中,所述装置还包括:
[0041]显示模块,用于在所述确定模块确定所述第一文件的文件类型为所述预设文件类型之后,显示验证信息,所述验证信息用于请求用户确认所述第一文件的文件类型是否为所述预设文件类型;
[0042]第三接收模块,用于接收输入的验证结果,所述验证结果包括用于表明所述用户已确认所述第一文件的文件类型为所述预设文件类型的第一结果、或者用于表明所述用户已否认所述第一文件的文件类型为所述预设文件类型的第二结果;
[0043]处理模块,用于当接收到所述第一结果时,将所述第一文件的文件类型设置为所述预设文件类型;当接收到所述第二结果时,继续识别所述第一文件的文件类型。
[0044]本发明的实施例提供的技术方案可以包括以下有益效果:
[0045]本发明实施例提供的上述方法,能够准确地、快捷方便地识别出文件类型;并且对用户来说非常简单易行,并不需要用户自行编写程序,也不需要掌握正则表达式的写法以及其他语句的运用,只需要上传日志给文件识别系统,由文件识别系统采用上述方法进行文件类型的识别,即可节省了用户的时间,也减少人工操作导致出错的可能性。
[0046]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
【专利附图】
【附图说明】
[0047]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
[0048]图1是本发明实施例提供的一种文件类型识别方法的流程图。
[0049]图2是本发明实施例提供的另一种文件类型识别方法的流程图。
[0050]图3A是本发明实施例提供的再一种文件类型识别方法的流程图。
[0051]图3B是本发明实施例提供的生成预设文件类型的文本特征信息的方法的流程图。
[0052]图4是本发明实施例提供的一种文件类型识别装置的结构图。
[0053]图5是本发明实施例提供的另一种文件类型识别装置的结构图。
【具体实施方式】
[0054]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
[0055]图1是根据一示例性实施例示出的一种文件类型识别方法的流程图,该方法可应用于文件处理设备或者文件处理程序中的文件识别系统,如图1所示,该方法包括以下步骤 S101-S103:
[0056]步骤S101、提取第一文件的文本特征信息,其中,文本特征信息包括字符串特征信息或者文本模板特征信息。
[0057]其中,第一文件包括所有文本形式的文件,比如日志等。字符串特征信息是指文件中的关键字词,能表明文件的内容特征。由于同一类型的文件,内容可能有重叠,因此,根据字符串特征信息来确定文件类型,准确性高;并且,由于字符串特征信息容易识别,因此,使得识别过程快捷方便。文本模板特征信息是能够表明文件的模板的格式特征信息,比如框格、符号等。由于同一类型的文件,文本模板可能相同,因此,根据文本模板特征信息来确定文件类型,准确性高;并且,由于文件模板特征信息容易识别,因此,使得识别过程快捷方便。
[0058]步骤S102、将第一文件的文本特征信息与预设文件类型的文本特征信息进行匹配比较。
[0059]在一个实施例中,可先确定要与之进行匹配比较的预设文件类型,优选地,可选择第一文件的来源对应的文件类型作为预设文件类型,此时,步骤S102可实施为:将第一文件的文本特征信息与第一文件的来源对应的文件类型的文本特征信息进行匹配比较。第一文件的来源可以是网络端口、文件路径等文件源头。对于来自同一来源的文件,其文件类型相同的可能性较大,因此,将第一文件的文本特征信息与第一文件的来源对应的文件类型的文本特征信息进行匹配比较,可提高匹配成功的效率,也可提高最终确定的第一文件的文件类型的准确性。
[0060]步骤S103、当第一文件的文本特征信息与预设文件类型的文本特征信息匹配时,确定第一文件的文件类型为预设文件类型。
[0061]本发明实施例提供的上述方法,能够准确地、快捷方便地识别出文件类型;并且对用户来说非常简单易行,并不需要用户自行编写程序,也不需要掌握正则表达式的写法以及其他语句的运用,只需要上传日志给文件识别系统,由文件识别系统采用上述方法进行文件类型的识别,即可节省了用户的时间,也减少人工操作导致出错的可能性。
[0062]在一个实施例中,如图2所示,当文本特征信息为文本模板特征信息时,步骤SlOl可实施为步骤S201:按照符号在第一文件中的出现顺序提取第一文件中的符号,并将提取的符号按照出现顺序排列生成第一文件的符号特征信息。另外,还可以通过数据挖掘、机器学习等方式提取符号特征信息。
[0063]此时,步骤S102可实施为步骤S202:将第一文件的符号特征信息与预设文件类型的符号特征信息进行匹配比较。其中,优选地,预设文件类型是第一文件的来源对应的文件类型。
[0064]此时,步骤S103可实施为步骤S203:当第一文件的符号特征信息与预设文件类型的符号特征信息匹配时,确定第一文件的文件类型为预设文件类型。其中,第一文件的符号特征信息与预设文件类型的符号特征信息匹配是指符号相同、且符号的出现顺序相同。
[0065]其中,上述符号是指文件中非文字、非字母、非数字的部分,比如就是标点符号、空格、括号、中划线、下划线等部分。例如,第一文件如下:
[0066][Mon May 2621: 06: 092014] [error] [client 157.55.33.47] PHPWarning:date O:Except1n message 1234 Call Stack ()
[0067]以X代表空格,则从该文件中,按照符号在文件中的出现顺序提取的符号为[XXX::x] [] [X…]X: (): XXXX O,将其作为第一文件的符号特征信息,如果第一文件的符号特征信息能和某个预设文件类型的符号特征信息匹配,则第一文件的文件类型就是该某个预设文件类型。
[0068]在一个实施例中,执行步骤S103之后,上述方法还可包括请求用户验证上述确定出的类型结果是否正确的过程,如图3A所示,该过程包括:
[0069]步骤S104、显示验证信息,验证信息用于请求用户确认第一文件的文件类型是否为预设文件类型。
[0070]步骤S105、接收输入的验证结果,验证结果包括用于表明用户已确认第一文件的文件类型为预设文件类型的第一结果、或者用于表明用户已否认第一文件的文件类型为预设文件类型的第二结果。
[0071]步骤S106、当接收到第一结果时,将第一文件的文件类型设置为预设文件类型;当接收到第二结果时,继续识别第一文件的文件类型。
[0072]其中,继续识别第一文件的文件类型可采用本发明实施例提供的方法,也可以采用其它识别方法。
[0073]上述请求用户验证上述确定出的类型结果是否正确的过程,可避免出错,保证最终识别出的第一文件的文件类型正确,符合用户意愿;并且能及时了解文件类型的识别情况。
[0074]在另一个实施例中,上述方法还可以包括生成预设文件类型的文本特征信息的过程,如图3B所示,该过程可以包括如下步骤:
[0075]步骤S301、接收来自上述来源(即第一文件的来源)的第二文件。
[0076]步骤S302、接收输入的第二文件的文件类型。
[0077]步骤S303、提取所述第二文件的文本特征信息。
[0078]其中,可提取第二文件的字符串特征信息或者文本模板特征信息来作为第二文件的文本特征信息。
[0079]步骤S304、将第二文件的文件类型存储为预设文件类型,将第二文件的文本特征信息存储为预设文件类型的文本特征信息。此时,预设文件类型就是第一文件的来源对应的文件类型。
[0080]S卩,该过程是用户通过上述来源上传第二文件,并且用户自定义第二文件的文件类型,系统接收到用户通过上述来源上传的第二文件和用户自定义的第二文件的文件类型之后,提取第二文件的文本特征信息,将第二文件的文件类型和文本特征信息对应存储,作为后续可以用来确定来自上述来源的其它文件类型的参考数据,可使得参考数据更加准确,最后确定出来的其它文件的文件类型更加符合用户意愿。
[0081]下面举一例对上述方法的整个过程进行说明,本例中,文件实施为日志:
[0082]如某一用户曾使用一 TCP端口上传过多种类型的日志,用户定义该端口对应的日志类型分别为A、B、C,系统对该端口上传的日志类型为A的文本特征信息记录为A1、A2,系统对该端口上传的日志类型为B的文本特征记录为B1、B2,系统对该端口上传的日志类型为C的文本特征记录为Cl。当该端口收到新的日志时,先提取新日志的文本特征信息,再使用A1、A2,B1、B2,C1分别与新日志的文本特征信息进行匹配比较。如果新日志的文本特征信息与Al或A2匹配,则可以认定新日志的日志类型是A。以此类推。在确定出新日志的日志类型之后,还可向用户显示验证信息,请求用户确认结果是否正确。
[0083]对应前述文件类型识别方法,本发明实施例还提供了一种文件类型识别装置,如图4所示,该装置包括:
[0084]提取模块41,用于提取第一文件的文本特征信息,文本特征信息包括字符串特征信息或者文本模板特征信息;
[0085]比较模块42,用于将第一文件的文本特征信息与预设文件类型的文本特征信息进行匹配比较;
[0086]确定模块43,用于当第一文件的文本特征信息与预设文件类型的文本特征信息匹配时,确定第一文件的文件类型为预设文件类型。
[0087]在一个实施例中,上述比较模块可包括:
[0088]比较子模块,用于将第一文件的文本特征信息与第一文件的来源对应的文件类型的文本特征信息进行匹配比较。
[0089]在一个实施例中,如图5所示,上述提取模块41可包括:
[0090]提取子模块51,用于当文本特征信息为文本模板特征信息时,按照符号在第一文件中的出现顺序提取第一文件中的符号,并将提取的符号按照出现顺序排列生成第一文件的符号特征信息;
[0091]上述比较模块42可包括:
[0092]比较子模块52,用于将第一文件的符号特征信息与预设文件类型的符号特征信息进行匹配比较;
[0093]上述确定模块43可包括:
[0094]确定子模块53,用于当第一文件的符号特征信息与预设文件类型的符号特征信息匹配时,确定第一文件的文件类型为预设文件类型。
[0095]在一个实施例中,上述装置还可包括:
[0096]第一接收模块,用于接收来自来源的第二文件;
[0097]第二接收模块,用于接收输入的第二文件的文件类型;
[0098]提取模块,用于提取第二文件的文本特征信息;
[0099]存储模块,用于将第二文件的文件类型存储为预设文件类型,将第二文件的文本特征信息存储为预设文件类型的文本特征信息。
[0100]在一个实施例中,上述装置还可包括:
[0101]显示模块,用于在确定模块确定第一文件的文件类型为预设文件类型之后,显示验证信息,验证信息用于请求用户确认第一文件的文件类型是否为预设文件类型;
[0102]第三接收模块,用于接收输入的验证结果,验证结果包括用于表明用户已确认第一文件的文件类型为预设文件类型的第一结果、或者用于表明用户已否认第一文件的文件类型为预设文件类型的第二结果;
[0103]处理模块,用于当接收到第一结果时,将第一文件的文件类型设置为预设文件类型;当接收到第二结果时,继续识别第一文件的文件类型。
[0104]本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
[0105]本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0106]这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0107]这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0108]显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
【权利要求】
1.一种文件类型识别方法,其特征在于,包括: 提取第一文件的文本特征信息,所述文本特征信息包括字符串特征信息或者文本模板特征信息; 将所述第一文件的文本特征信息与预设文件类型的文本特征信息进行匹配比较; 当所述第一文件的文本特征信息与预设文件类型的文本特征信息匹配时,确定所述第一文件的文件类型为所述预设文件类型。
2.如权利要求1所述的方法,其特征在于,所述将所述第一文件的文本特征信息与预设文件类型的文本特征信息进行匹配比较,包括: 将所述第一文件的文本特征信息与所述第一文件的来源对应的文件类型的文本特征信息进行匹配比较。
3.如权利要求1或2所述的方法,其特征在于, 当所述文本特征信息为文本模板特征信息时,所述提取第一文件的文本特征信息,包括:按照符号在第一文件中的出现顺序提取所述第一文件中的符号,并将提取的符号按照出现顺序排列生成所述第一文件的符号特征信息; 所述将所述第一文件的文本特征信息与预设文件类型的文本特征信息进行匹配比较,包括:将所述第一文件的符号特征信息与预设文件类型的符号特征信息进行匹配比较; 当所述第一文件的文本特征信息与预设文件类型的文本特征信息匹配时,确定所述第一文件的文件类型为所述预设文件类型,包括:当所述第一文件的符号特征信息与预设文件类型的符号特征信息匹配时,确定所述第一文件的文件类型为所述预设文件类型。
4.如权利要求3所述的方法,其特征在于,所述方法还包括: 接收来自所述来源的第二文件; 接收输入的所述第二文件的文件类型; 提取所述第二文件的文本特征信息; 将所述第二文件的文件类型存储为所述预设文件类型,将所述第二文件的文本特征信息存储为所述预设文件类型的文本特征信息。
5.如权利要求1所述的方法,其特征在于,所述确定所述第一文件的文件类型为所述预设文件类型之后,所述方法还包括: 显示验证信息,所述验证信息用于请求用户确认所述第一文件的文件类型是否为所述预设文件类型; 接收输入的验证结果,所述验证结果包括用于表明所述用户已确认所述第一文件的文件类型为所述预设文件类型的第一结果、或者用于表明所述用户已否认所述第一文件的文件类型为所述预设文件类型的第二结果; 当接收到所述第一结果时,将所述第一文件的文件类型设置为所述预设文件类型;当接收到所述第二结果时,继续识别所述第一文件的文件类型。
6.一种文件类型识别装置,其特征在于,包括: 提取模块,用于提取第一文件的文本特征信息,所述文本特征信息包括字符串特征信息或者文本模板特征信息; 比较模块,用于将所述第一文件的文本特征信息与预设文件类型的文本特征信息进行匹配比较; 确定模块,用于当所述第一文件的文本特征信息与预设文件类型的文本特征信息匹配时,确定所述第一文件的文件类型为所述预设文件类型。
7.如权利要求6所述的装置,其特征在于,所述比较模块包括: 比较子模块,用于将所述第一文件的文本特征信息与所述第一文件的来源对应的文件类型的文本特征信息进行匹配比较。
8.如权利要求6或7所述的装置,其特征在于, 所述提取模块包括: 提取子模块,用于当所述文本特征信息为文本模板特征信息时,按照符号在第一文件中的出现顺序提取所述第一文件中的符号,并将提取的符号按照出现顺序排列生成所述第一文件的符号特征信息; 所述比较模块包括: 比较子模块,用于将所述第一文件的符号特征信息与预设文件类型的符号特征信息进行匹配比较; 所述确定模块,包括: 确定子模块,用于当所述第一文件的符号特征信息与预设文件类型的符号特征信息匹配时,确定所述第一文件的文件类型为所述预设文件类型。
9.如权利要求8所述的装置,其特征在于,所述装置还包括: 第一接收模块,用于接收来自所述来源的第二文件; 第二接收模块,用于接收输入的所述第二文件的文件类型; 提取模块,用于提取所述第二文件的文本特征信息; 存储模块,用于将所述第二文件的文件类型存储为所述预设文件类型,将所述第二文件的文本特征信息存储为所述预设文件类型的文本特征信息。
10.如权利要求6所述的装置,其特征在于,所述装置还包括: 显示模块,用于在所述确定模块确定所述第一文件的文件类型为所述预设文件类型之后,显示验证信息,所述验证信息用于请求用户确认所述第一文件的文件类型是否为所述预设文件类型; 第三接收模块,用于接收输入的验证结果,所述验证结果包括用于表明所述用户已确认所述第一文件的文件类型为所述预设文件类型的第一结果、或者用于表明所述用户已否认所述第一文件的文件类型为所述预设文件类型的第二结果; 处理模块,用于当接收到所述第一结果时,将所述第一文件的文件类型设置为所述预设文件类型;当接收到所述第二结果时,继续识别所述第一文件的文件类型。
【文档编号】G06F17/30GK104252531SQ201410461440
【公开日】2014年12月31日 申请日期:2014年9月11日 优先权日:2014年9月11日
【发明者】陈军, 梁玫娟 申请人:北京优特捷信息技术有限公司