新词汇的发现方法及装置的制造方法
【技术领域】
[0001] 本发明实施例涉及自然语言处理技术,尤其涉及一种新词汇的发现方法及装置。
【背景技术】
[0002] 现有技术中,对于新词汇的发现方法主要有两种:基于单字散串的方法和高频重 复模式方法。
[0003] 图1是现有技术中的基于单字散串的方法确定新词汇的流程图,如图1所示,主要 步骤包括:步骤110、获取文档集;步骤120、利用现有分词系统和词典,对文档集进行分词, 因新词在分词过程中无法被识别,会被分成独立的单字和相邻单字组成的字串,他们有可 能就是候选的新词汇;步骤130、利用统计或规则的方法对所获取的候选词进行检测和过 滤,得到新词汇。基于高频重复模式方法的出发点是:新词具有较高的使用频率,因此,从大 量语料中选出重复模式作为候选词,再对候选词利用统计或规则的方法进行过滤,得到新 词汇。
[0004] 上述两种方法都是对文档分词后,从中获取候选词,再进行相关处理。这种基于规 则的处理方法,因为所用词典不同,导致抽取到的新词语也不相同,更为严重的是当分词字 典本身不准确时,不仅不利于新词的发现,更有可能提取出错误的词。另外,基于高频重复 模式的方法将会忽略那些低频新词的提取,因此具有局限性。因此,上述两种方法都存在着 提取的新词汇不够准确的缺点。
【发明内容】
[0005] 有鉴于此,本发明实施例提供一种新词汇的发现方法及装置,以提高发现的新词 汇的准确性。
[0006] 第一方面,本发明实施例提供了一种新词汇的发现方法,所述方法包括:
[0007] 获取文本文档;
[0008] 将所述文本文档分割成片段;
[0009] 以所述片段中的二元词为基础,对所述二元词进行扩展,并对所述二元词及扩展 得到的词语以词典为参考进行过滤,得到候选词汇;
[0010] 计算所述候选词汇的内密度和外密度;
[0011] 当所述内密度和外密度分别大于预设内密度阈值和预设外密度阈值时,确定所述 候选词汇为新词汇。
[0012] 第二方面,本发明实施例还提供了一种新词汇的发现装置,所述装置包括:
[0013] 文档获取模块,用于获取文本文档;
[0014] 片段分割模块,用于将所述文本文档分割成片段;
[0015] 候选词汇确定模块,用于以所述片段中的二元词为基础,对所述二元词进行扩展, 并对所述二元词及扩展得到的词语以词典为参考进行过滤,得到候选词汇;
[0016] 密度计算模块,用于计算所述候选词汇的内密度和外密度;
[0017] 新词汇确定模块,用于当所述内密度和外密度分别大于预设内密度阈值和预设外 密度阈值时,确定所述候选词汇为新词汇。
[0018] 本发明实施例的技术方案,不需要利用词典对文本文档进行分词,而是利用词典 对片段中的词语进行过滤得到候选词汇,然后再根据内密度和外密度对候选词汇进行过 滤,最终得到新词汇,避开了词典的局限性,提高了发现的新词汇的准确性。
【附图说明】
[0019] 图1是现有技术中的基于单字散串的方法确定新词汇的流程图;
[0020] 图2是本发明实施例一提供的一种新词汇的发现方法的流程图;
[0021 ]图3是本发明实施例二提供的一种新词汇的发现方法的流程图;
[0022] 图4是本发明实施例三提供的一种新词汇的发现装置的结构示意图。
【具体实施方式】
[0023] 下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描 述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便 于描述,附图中仅示出了与本发明相关的部分而非全部内容。
[0024] 实施例一
[0025]图2是本发明实施例一提供的一种新词汇的发现方法的流程图,本实施例可适用 于发现文本文档中的新词汇的情况,该方法可以由计算机来执行,具体包括如下步骤: [0026]步骤210,获取文本文档。
[0027] 利用爬虫程序从网络中爬取文本文档,将爬取到的文本文档存储到数据库中。
[0028] 在需要对文本文档中的新词汇进行发现时,可以从数据库中存储的数据中获得所 述文本文档,当所述数据库中没有存储所述文本文档时,也可以直接利用爬虫程序从网络 中爬取所述文本文档。
[0029] 步骤220,将所述文本文档分割成片段。
[0030] 将所述文本文档分割成片段,如可以根据段落将所述文本文档分割成片段,也可 以根据文本文档中的标点符号将所述文本文档分割成片段,当然,还可以有其他分割方法。 [0031 ]其中,将所述文本文档分割成片段优选包括:
[0032] 以所述文本文档中的标点符号为分隔符将所述文本文档分割成片段。
[0033] 利用文本文档中的标点符号将所述文本文档分割成长短不一的片段,这样用标点 符号隔开的两个片段也可以说两个短语,在局部范围内不是联系紧密的新词汇,这样有利 于后续对候选词汇的内密度的计算。
[0034] 步骤230,以所述片段中的二元词为基础,对所述二元词进行扩展,并对所述二元 词及扩展得到的词语以词典为参考进行过滤,得到候选词汇。
[0035] 其中,二元词是指由相邻两个字组成的词语。
[0036] 以所述片段中的相邻两个字组成的二元词为基础,对所述二元词进行扩展,每次 扩展一个或者多个字,直到得到设定元词,将得到的包括所述二元词在内的词语与词典中 的词语进行匹配。如果匹配成功,说明该词语在词典中存在,则该词语不是新词汇;如果匹 配不成功,说明该词语在词典中不存在,则该词语有可能是新词汇,因此,确定该词语为候 选词汇。其中,设定元词可以为七元词,如"中华人民共和国"。当然,在对片段中的二元词进 行扩展时还需要考虑片段的长度,如:如果设定元词为七元词,而片段的实际长度为五个字 时,则只需扩展到五元词。
[0037] 其中,以所述片段中的二元词为基础,对所述二元词进行扩展,并对所述二元词及 扩展得到的词语以词典为参考进行过滤,得到候选词汇优选包括:
[0038] 将所述片段中的相邻两字组成的二元词与词典中的词语进行匹配,如果匹配不成 功,则确定所述二元词为候选词汇;
[0039]根据所述二元词在所述片段中的位置、扩展方向以及扩展数目,对所述二元词进 行扩展,获取对应的扩展元词;
[0040] 如果所述扩展元词与词典中的词语匹配不成功,则确定所述扩展元词为候选词 汇。
[0041] 首先提取出片段中的二元词,在提取二元词时,可以以片段中开头的两个字为基 础,依次往右交错一个字得到的二元词(如片段中的第二个字和第三个字组成的二元词,第 三个字和第四个字组成的二元词等),直到得到片段中的最后一个二元词,将得到的二元词 与词典中的词语进行匹配,如果匹配不成功,则确定所述二元词为候选词汇。然后以所述二 元词为基础,根据所述二元词在所述片段中的位置、扩展方向以及扩展数目,对所述二元词 进行扩展,得到对应的扩展元词,扩展方向一般可以为向右扩展,扩展数目即扩展的字数, 如对二元词扩展一个字得到三元词,再对所述三元词扩展一个字得到四元词(即对所述二 元