基于词法分析的客户名称计算机检索方法

文档序号:6585654阅读:286来源:国知局
专利名称:基于词法分析的客户名称计算机检索方法
技术领域
本发明涉及客户资料计算机管理领域,尤其涉及客户名称的计算机检索。
背景技术
众所周知,目前全球中小企业的竞争环境激烈,生存压力大,企业间竞争直接体现 为对“客户资源”的争夺,哪个企业拥有了大量客户资源,它就拥有了生存、发展的机会。因 此,客户资料是每个企业的核心,客户管理失控会导致客户反感、客户服务质量低下、客户 贡献度评估不准确、客户结算混乱、财务人员工作量巨大等诸多问题。目前国内大部分中小企业的客户资料系管理基本上处于混乱无序的状态,各部门 客户资料混乱、无法统一管理;客户资料各自为政、销售部门的收款到账时间与财务部门不 一致。尤其是客户资料重复,多个业务员接触同一客户,引发业务员纷争,导致客户不满等等。中国科学院计算技术研究所提出了一种基于层叠隐马模型的汉语词法分析方法。 在分词方面,采取的是基于类的隐马模型,在这层隐马模型中,未登录词和词典中收录的普 通词一样处理。未登录词识别引入了角色HMM =Viterbi算法标注出全局最优的角色序列, 然后在角色序列的基础上,识别出未登录词,并计算出真实的可信度。在切分排歧方面,提 出了一种基于N-最短路径的策略,即在早期阶段召回N个最佳结果作为候选集,目的是 覆盖尽可能多的歧义字段,最终的结果会在未登录词识别和词性标注之后,从N个最有潜 力的候选结果中选优得到。不同层面的实验表明,层叠隐马模型的各个层面对汉语词法分 析都发挥了积极的作用。中国科学院计算技术研究所实现了基于层叠隐马模型的汉语词 法分析系统ICTCLAS,该系统在2002年的973专家组评测中获得第一名,在2003年汉语 特别兴趣石if究组(the ACL Special Interest Group on ChineseLanguage Processing, SIGHAN)组织的第一届国际汉语分词大赛中综合得分获得两项第一名、一项第二名。这表 明ICTCLAS是目前最好的汉语词法分析系统之一。

发明内容
本发明根据词法分析技术的原理,提供了一种基于词法分析的客户名称计算机检 索方法来解决客户资料的重复录入问题。本发明所提基于词法分析的客户名称检索方法至少包含以下步骤(1)词法分析步骤,输入客户名称,结合客户名称词典10,经过词法分析模块20的 处理,输出客户名称的分词结果。(2)未定义词识别步骤,人为对所述(1)词法分析步骤输出结果中未能正确识别 的词进行修正,并将修正后的正确词储存到客户名称词典10中。(3)客户检索步骤,从所述(2)未定义词识别步骤修正后的分词结果中,取出客户 名称的关键词,并根据该关键词到客户资料库50中查找具有相似名称的客户。


附图为本发明方法的流程示意图。
具体实施例方式下面结合附图,以一优选计算机程序实施例,详细说明本发明的实施方式。本优选实施例的计算机程序可以用C/C++、C#、Java语言实现。本优选实施例的客户名称词典10采用.TXT文本文件,格式为词,每行不得超过 1000个字节。示例如下新科海肯德基国美本优选实施例的词法分析模块20采用的是中国科学院计算技术研究所研制 的汉语词法分析系统 ICTCLASdnstitute of Computing Technology, ChineseLexical Analysis System) 3. 0版的动态连接库ICTCLAS. dll。在计算机程序中,首先调用ICTCLAS. dll中的ICTCLASJnit函数进行初始化;接着调用ICTCLAS_ImportUserDict函数,加载客 户名称词典20 ;然后调用ICTCLAS-ParagraphProcess函数,传入客户名称字串,即可输出 分词结果。例如输入江苏英诺威特软件有限公司输出江苏/ns英诺威/nrf特/ag软件/n有限公司/η。在上述输出结果中,由于“英诺威特”是未定义词,因此ICTCLAS将它切分两个词 “英诺威”和“特”,这显然是不符合要求的。此时,就需要在未定义词识别模块30中进行人 工修正。在未定义词识别模块30中,将词法分析模块20的输出结果显示在计算机人机界 面中,供用户对其中不正确的词进行修改。修改结束后,应将正确的词,如“英诺威特”,添加 到客户名称词典10中,如下所示新科海肯德基国美英诺威特此时,如果再次调用ICTCLAS_ParagraphPr0CeSS函数,传入“江苏英诺威特软件 有限公司”字串,即可输出正确的分词结果,如“江苏/ns英诺威特/n软件/n有限公司/ η”。最后,客户检索模块40,根据客户名称的关键词,如“英诺威特”,采用 Transact-SQL的LIKE运算符,到客户资料数据库50中执行模糊查询,如“SELECT*FR0M Customer WHERE Name LIKE,%英诺威特%,”,即可检索出所有名称中包含“英诺威特”词 的客户。客户资料数据库50可以用关系型数据库系统来组织,如Microsoft SQL Server。
权利要求
1.基于词法分析的客户名称计算机检索方法,该方法至少包含以下步骤(1)词法分析步骤,输入客户名称,结合客户名称词典,经过词法分析模块的处理,输出 客户名称的分词结果。(2)未定义词识别步骤,人为对所述(1)词法分析步骤输出结果中未能正确识别的词 进行修正,并将修正后的正确词储存到客户名称词典中。(3)客户检索步骤,从所述(2)未定义词识别步骤修正后的分词结果中,取出客户名称 的关键词,并根据该关键词到客户资料库中查找具有相似名称的客户。
2.如权利要求1所述的基于词法分析的客户名称计算机检索方法,其特征在于,所述 的客户名称词典,用于存储客户名称的关键词。
3.如权利要求1所述的基于词法分析的客户名称计算机检索方法,其特征在于,所述 的词法分析模块,至少包含分词、切分排歧和未定义词识别步骤。
全文摘要
基于词法分析的客户名称计算机检索方法,涉及客户资料计算机管理领域,尤其涉及客户名称的计算机检索。本发明根据词法分析技术的原理,提供了一种基于词法分析的客户名称检索方法。本方法首先通过词法分析步骤,输入客户名称,结合客户名称词典,经过词法分析模块的处理,输出客户名称的分词结果;接着在未定义词识别步骤中,人为对所述词法分析步骤输出结果中未能正确识别的词进行修正,并将修正后的正确词储存到客户名称词典中;最后在客户检索步骤中,从所述未定义词识别步骤修正后的分词结果中,取出客户名称的关键词,并根据该关键词到客户资料库中查找具有相似名称的客户。
文档编号G06F17/30GK102073665SQ200910247149
公开日2011年5月25日 申请日期2009年11月25日 优先权日2009年11月25日
发明者王平, 陈新康 申请人:王平, 陈新康
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1