汉语个人简历信息处理系统和方法

文档序号:6653369阅读:474来源:国知局
专利名称:汉语个人简历信息处理系统和方法
技术领域
本发明涉及中文信息处理和计算语言学中的自然语言理解,尤其涉及一种汉语个人简历信息处理系统和方法。
个人简历信息是人才招聘工作中的一种信息资源,是企事业单位寻求人才的基本数据。尤其是随着网络技术的发展,越来越多的企事业单位已寻求通过互联网来发现和招聘人才。上网猎取人才不仅可以使企事业的人事部门摆脱繁重和复杂的传统人力劳动,而且,网络丰富的信息资源为企事业单位提供了广阔的人才选择余地。与此同时,作为提供了个人简历信息的各类人才,同样也增加了被选择录用的机会。另一方面,正因为网上投递简历的方便性,求职者在短时间内可以同时申请很多职位,导致许多在互联网上进行招聘的企业每天都要收到成百上千的电子简历文本。这样,招聘人才的企业人事部门就需要投入大量人力处理所收到的大量电子简历文本,增加了新的负担。同时,由于各种个人简历的设计风格以及各人书写习惯的不同,个人简历信息的具体格式因人而异,千变万化,给数据库建立和人才信息检索带来诸多不便。传统的方法只能依靠人工进行分类处理这些格式各异的电子简历,将求职者的信息手工录入到数据库中。为了减轻企事业人事部门新的负担,就需要有一种自动处理任意格式的简历文本的方法,从简历文本中自动提取出企业最为关心的关键信息。
本发明的目的的在于提供一种自动从任意书写格式的汉语个人简历文本中提取相关信息并进行格式化处理的汉语个人简历信息处理系统和方法。
根据本发明的一个方面,提供一种汉语个人简历信息处理方法,该方法包括以下步骤对输入的汉语个人简历文本进行预处理,形成已标注的第一简历文本;对所述第一简历文本进行分词处理,形成已标注的第二简历文本;对所述第二简历文本中的个人简历常用专有名词组进行识别标注,形成已标注的第三简历文本;对已标注的第三简历文本进行文本结构分析,形成已标注并具有特定类型的文本块。
根据本发明的另一方面,提供一种汉语个人简历信息处理系统,它包括用以对输入的个人简历文本中的字符、单词、词组和专有名词进行标注的简历文本信息识别标注装置;以及用以对识别标注后的个人简历文本进行分块并对分块后的文本块进行标注、分割和合并组合的简历文本结构分析标注装置。
采用本发明的汉语个人简历信息处理系统和方法,可以对任何书写习惯形成的个人简历文本进行处理,抽取出简历文本中的主要信息,最终形成一种统一的格式,给人才数据库建立和人才信息检索带来了方便。
以下将结合附图和较佳实施例对本发明作进一步的详细描述。本发明的其它的目的、特征和效果将在以下的描述中变得更加清楚。


图1是表示根据本发明的汉语个人简历信息处理系统的方框图;图2是表示根据本发明的汉语个人简历信息处理系统的操作流程图;图3是表示图2所示操作流程图中有关预处理流程的更详细的流程图;图4是表示图2所示操作流程图中有关简历文本结构分析流程的更详细的流程图。
参见图1,本发明的汉语个人简历信息处理系统包括用以对输入的个人简历文本中的字符、单词、词组和专有名词进行标注的简历文本信息识别标注装置1;用以对识别标注后的个人简历文本进行分块并对分块后的文本块进行标注、分割和合并组合的简历文本结构分析标注装置2;以及按照特定的顺序汇总各类信息,作为信息提取结果输出的信息收集汇总装置3。
其中,简历文本信息识别标注装置1包括用以对文本中的特定字符进行识别标注的预处理装置11;对所述文本进行分词处理的分词处理装置12;以及对所述文本中的个人简历常用专有名词组进行识别标注的专有名词识别标注装置13。
简历文本结构分析标注装置2包括用以按自然段落对所述文本进行初始分块的简历文本分块装置21;对所述初始分块的文本块进行匹配标注的文本块标注装置22;对经过标注的文本块进行分割,形成具有单一类型的文本块的文本块分割装置23;以及将所述分割后具有相同类型的各文本块合并组合成单一类型的大文本块的文本块组合装置24。
接下来参见图2至图4,它表示根据本发明的汉语个人简历信息处理系统的操作流程图。步骤S1,系统输入汉语个人简历文本。步骤S2,系统对输入的个人简历文本进行预处理,它包括步骤S21,系统对原始个人简历文本中的数字、外文单词和标点符号等进行识别和标记;步骤S22,系统进一步对该文本中的日期时间、URL网页地址和电子邮件地址等进行识别标记。至此,系统形成已标注的第一简历文本。
步骤S3,系统利用常规词典和简历词典对第一简历文本进行分词处理。其中,简历词典是针对中文简历文本专门构造的一种专用词典,它包含了大量从真实简历文本中提取出的粒度较大的组合词汇。经过分词处理步骤后,系统形成已标注的第二简历文本。在第二简历文本中,出现了可供识别的中文单词、常用词组和个人简历专有名词及词组,例如,“北京”、“清华”、“本科”、“毕业”、“无忧工作网”、“开发部”、“工程师”、“技术总监”、“教育背景”、“工作经历”、“兴趣爱好”等等。
步骤S4,系统利用专有名词组识别知识库(下称第一知识库)和第一规则解释器对上述第二简历文本中的个人简历常用专有名词组(例如人名、教育机构名称、专业名称、工作单位名称、工作部门名称、职称职务名称、项目名称、担当角色等)进行识别标注。其中,第一知识库是针对个人简历中常用的专有名词组的特点构造的,它包含了许多个人简历常用专有名词组的结构特征规则。例如,根据该规则,类似“地点名词(如北京、上海、江苏省)+一个或多个其他名词(如航空、交通)+教育机构名称后缀(如大学、学院)”这一结构的专有名词组将被识别和标注为“教育机构名称”。第一规则解释器用以对第一知识库中的词组结构特征规则进行解释分析,从而识别出上述个人简历常用专有名词组。经过专有名词识别标注步骤后,系统形成已标注的第三简历文本。
步骤S5,系统对已标注的第三简历文本进行文本结构分析。它包括步骤S51,按自然段落对第三简历文本进行初始分块;步骤S52,系统利用文本模式知识库(下称第二知识库)和第二规则解释器对已经初始分块的文本块进行匹配标注。经过匹配标注后的文本块既可能是只包含单一类型信息的文本快,也可能是包含多种类型信息的混合文本块。其中,第二知识库包含了许多根据简历文本中不同类型的文本块的特征构造的模式规则。而第二规则解释器则用以对第二知识库中的模式规则进行解释和分析。例如,根据该规则,上述文本块中类似“存在时间起止范围AND存在教育机构名称AND存在专业名称AND存在学位名称”的将被标注为“教育背景块”。步骤S53,系统利用第一数据库和特定的决策标准确定混合文本块的首部类型,所谓首部指该文本块的最前面的连续若干句,并且这些句子只包含同一类型的信息,紧跟在首部之后的一句(如果有的话)包含的信息类型与首部的信息类型不同。其中,第一数据库也称为“信息频率权值数据库”,它包含许多从大量真实简历文本统计出来的不同信息在不同类型文本块中出现频率的统计数据。步骤S54,系统利用简历文本分块线索词典及概率数据库对上述混合文本块进行分割,即将该文本块分割成更细、具有单一类型的文本块。其中,该分块线索词典及概率数据库包含许多从大量真实简历文本中训练、提取出来的分块线索词以及这些词成为简历文本分块标记的概率统计数据。步骤S55,系统将以上分割后具有相同类型的各文本块合并组合成单一类型的大文本块。例如,基本信息块、教育背景块、工作经验块、项目经验块、求职要求块和其它信息块等。
步骤S6,系统从各类文本块中收集相应的信息,要收集的信息均已在前面的各步骤中被逐渐识别标注出来了。例如,从个人基本信息块中收集姓名、性别、出生日期、婚姻状况、邮政编码、电话号码、Email地址、居住城市、通信地址或居住地址、身份证号码等信息;从教育背景文本块中收集接受教育的起止年月、教育机构名称、系名或专业名称、学历或学位名称、最高学历名称、外语极其等级程度等信息;从工作经验文本块中收集工作起止年月、所在单位名称、所在部门名称、担任的职称职务、工作年数等信息;从项目经验文本块中收集项目起止年月、项目名称、开发工具名称、硬件环境名称、软件环境名称以及担任的角色或者职责等信息;从求职要求文本块中收集从事的行业、工作职能名称、工作地点、月薪要求、期望的单位性质等信息、从其它信息文本块中收集未包含在在上述文本块内的其它信息,如专业技能、培训经历、获得的证书名称、奖励名称、个人兴趣和个人爱好等信息。
步骤S7,系统按照特定的顺序汇总各类信息,作为信息提取结果输出。
以上所述仅仅是本发明的汉语个人简历信息处理系统和方法的较佳实施例。根据本发明的构思,本领域的熟练人员还可以对此作出各种修改和变换,但这种修改和变换均属于本发明的范围。
权利要求
1.一种汉语个人简历信息处理方法,其特征在于包括以下步骤对输入的个人简历文本进行预处理,形成已标注的第一简历文本;对所述第一简历文本进行分词处理,形成已标注的第二简历文本;对所述第二简历文本中的个人简历常用专有名词组进行识别标注,形成已标注的第三简历文本;对已标注的第三简历文本进行文本结构分析,形成已标注并具有特定类型的文本块。
2.如权利要求1所述的方法,其特征在于所述预处理步骤包括以下步骤对输入的个人简历文本中包括数字、外文单词和标点符号等类型的字符进行识别和标记;对个人简历文本中包括日期时间、URL网页地址和电子邮件地址等类型的字符进行识别和标记。
3.权利要求1所述的方法,其特征在于所述文本结构分析步骤包括以下步骤按自然段落对第三简历文本进行初始分块;对已经初始分块的文本块进行模式匹配标注;对经过模式匹配标注的混合文本块进行分割,形成具有单一类型的文本块;将所述分割后具有相同类型的各文本块合并组合成单一类型的大文本块。
4.如权利要求1所述的方法,其特征在于进一步包括从各个特定类型的文本块中收集相应的信息的步骤。
5.如权利要求4所述的方法,其特征在于进一步包括按照特定的顺序汇总各类信息,作为信息提取结果输出的步骤。
6.如权利要求3所述的方法,其特征在于进一步包括在对混合文本块进行分割之前确定所述混合文本块的首部类型的步骤。
7.一种汉语个人简历信息处理系统,其特征在于包括用以对输入的汉语个人简历文本中的字符、单词、词组和专有名词进行标注的简历文本信息识别标注装置;以及用以对识别标注后的个人简历文本进行分块并对分块后的文本块进行标注、分割和合并组合的简历文本结构分析标注装置。
8.如权利要求7所述的系统,其特征在于所述简历文本识别标注装置包括用以对文本中的特定字符进行识别标注的预处理装置;利用常规词典和简历词典对所述文本进行分词处理的分词处理装置;以及利用第一知识库和第一规则解释器对所述文本中的个人简历常用专有名词组进行识别标注的专有名词识别标注装置,所述第一知识库含有个人简历常用专有名词组的结构特征规则,所述第一规则解释器用以对第一知识库中的词组结构特征规则进行解释分析。
9.如权利要求7所述的系统,其特征在于所述简历文本结构分析标注装置包括用以按自然段落对所述文本进行初始分块的简历文本分块装置;利用第二知识库和第二规则解释器对所述初始分块的文本块进行匹配标注的文本块标注装置,所述第二知识库含有根据简历文本中不同类型的文本块的特征构造的模式规则,所述第二规则解释器用以对第二知识库中的模式规则进行解释和分析;利用第一数据库和特定的决策标准对经过模式匹配标注的混合文本块的首部进行确定性标注的文本块首部标注装置,所述第一数据库含有从大量真实简历文本统计出来的不同信息在不同类型文本块中出现频率的统计数据;利用简历文本分块线索词典及概率数据库对经过标注的文本块进行分割,形成具有单一类型的文本块的文本块分割装置,所述分块线索词典及概率数据库含有从大量真实简历文本中训练、提取出来的分块线索词以及这些词成为简历文本分块标记的概率统计数据;以及将所述分割后具有相同类型的各文本块合并组合成单一类型的大文本块的文本块组合装置。
10.如权利要求7至9任一所述的系统,其特征在于进一步包括按照特定的顺序汇总各类信息,作为信息提取结果输出的信息收集汇总装置。
全文摘要
汉语个人简历信息处理方法和系统,包括对输入的汉语个人简历文本进行预处理形成已标注的第一简历文本;对第一简历文本进行分词处理形成已标注的第二简历文本;对第二简历文本中的个人简历常用专有名词组进行识别标注形成已标注的第三简历文本;对已标注的第三简历文本进行文本结构分析形成已标注并具有特定类型的文本块。该方法和系统可以对个人简历文本进行处理,抽取出简历文本中的主要信息,最终形成一种统一的格式。
文档编号G06F17/21GK1367446SQ0110528
公开日2002年9月4日 申请日期2001年1月22日 优先权日2001年1月22日
发明者吕楠, 郑飞 申请人:前程无忧网络信息技术(北京)有限公司上海分公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1