基于社交网络的关键词提取方法及装置的制造方法

文档序号:8258608阅读:672来源:国知局
基于社交网络的关键词提取方法及装置的制造方法
【技术领域】
[0001] 本发明涉及关键词提取技术领域,特别涉及一种基于社交网络的关键词提取方法 及装置。
【背景技术】
[0002] 关键词作为广大社交用户共同关注和使用的主题词,能够涵盖大量的信息。通过 提取海量社交文本中的关键词信息,不仅能够及时了解广大社交用户共同关注的主题,而 且能够帮助社交用户及时掌握当前的热点信息。因此,关键词提取能够有效应对信息过载 问题,并为广大社交用户提供快捷便利的资讯服务。
[0003] 普遍存在的关键词抽取方法为:获取大量用户的历史搜索信息,根据用户的历史 搜索信息以及网页内容中频繁出现的主题词,提取关键词。
[0004] 然而,目前的方法在很大程度上依赖于用户的搜索信息,需要获取到大量的历史 搜索信息,才能够准确提取出关键词,提取速度低。

【发明内容】

[0005] (一)解决的技术问题
[0006] 本发明解决的技术问题是:如何解决在提取关键词过程中需要获取大量历史搜索 "[目息问题。
[0007] (二)技术方案
[0008] 为解决上述技术问题,本发明提供了一种基于社交网络的关键词提取方法,包 括:
[0009] 对待提取文本进行分词,并统计词的词频和该词对应的文本数;
[0010] 根据所述词频和该词对应的文本数,计算词权重,选取第一预设值个词权重较大 的词作为候选关键词,从候选关键词中提取第二预设值个在待提取文本中出现频率较大的 候选关键词作为关键词。
[0011] 优选地,在所述对待提取文本进行分词之前,进一步包括:对待提取文本进行噪声 过滤,并将过滤后的文本去重;
[0012] 和 / 或,
[0013] 所述对待提取文本进行分词的步骤进一步包括:对分词进行词性标注,该词性为 符合提取规则的第一词性或不符合提取规则的第二词性;则所述选取第一预设值个词权重 较大的词作为候选关键词包括:从词性为第一词性的词中,选取第一预设值个词权重较大 的词作为候选关键词。
[0014] 优选地,所述对待提取文本进行噪声过滤,具体包括:
[0015] 根据设定的噪声过滤规则,遍历待提取文本,对待提取文本中的字符进行匹配,若 待提取文本中的字符属于所述噪声过滤规则,则匹配成功,将匹配成功的字符删除;
[0016] 和 / 或,
[0017] 所述将过滤后的文本去重,具体包括:
[0018] 将当前过滤后的文本映射成指纹信息,并将该当前过滤后的文本与指纹信息库进 行比较,若比较结果中存在差异的指纹个数小于等于第三预设值,则将当前过滤后的文本 删除,否则,将当前过滤后的文本的指纹信息加入所述指纹信息库中。
[0019] 优选地,所述统计词的词频和该词对应的文本数,进一步包括:
[0020] 为每个不重复的词分配词索引号,并将词的索引号以及与索引号对应的词的特征 保存到词索引表中;
[0021] 为去重后的文本分配文本索引号,根据去重后的文本中词的位置关系,将去重后 的文本的文本索引号以及该去重后的文本中词的词索引号保存到文本索引表中;
[0022] 其中,所述词的特征包括:词的词频、该词对应的文本数、词性和词权重。
[0023] 优选地,所述计算词权重具体包括:
[0024] 根据以下公式计算词的词权重:
[0025]
【主权项】
1. 一种基于社受网络的关键词提取方法,其特征在于,包括: 对待提取文本进行分词,并统计词的词频和该词对应的文本数; 根据所述词频和该词对应的文本数,计算词权重,选取第一预设值个词权重较大的词 作为候选关键词,从候选关键词中提取第二预设值个在待提取文本中出现频率较大的候选 关键词作为关键词。
2. 如权利要求1所述的方法,其特征在于,在所述对待提取文本进行分词之前,进一步 包括:对待提取文本进行噪声过滤,并将过滤后的文本去重; 和/或, 所述对待提取文本进行分词的步骤进一步包括:对分词进行词性标注,该词性为符合 提取规则的第一词性或不符合提取规则的第二词性;则所述选取第一预设值个词权重较大 的词作为候选关键词包括:从词性为第一词性的词中,选取第一预设值个词权重较大的词 作为候选关键词。
3. 如权利要求2所述的方法,其特征在于,所述对待提取文本进行噪声过滤,具体包 括: 根据设定的噪声过滤规则,遍历待提取文本,对待提取文本中的字符进行匹配,若待提 取文本中的字符属于所述噪声过滤规则,则匹配成功,将匹配成功的字符删除; 和/或, 所述将过滤后的文本去重,具体包括: 将当前过滤后的文本映射成指纹信息,并将该当前过滤后的文本与指纹信息库进行比 较,若比较结果中存在差异的指纹个数小于等于第三预设值,则将当前过滤后的文本删除, 否则,将当前过滤后的文本的指纹信息加入所述指纹信息库中。
4. 如权利要求1所述的方法,其特征在于,所述统计词的词频和该词对应的文本数,进 一步包括: 为每个不重复的词分配词索引号,并将词的索引号以及与索引号对应的词的特征保存 到词索引表中; 为去重后的文本分配文本索引号,根据去重后的文本中词的位置关系,将去重后的文 本的文本索引号以及该去重后的文本中词的词索引号保存到文本索引表中; 其中,所述词的特征包括:词的词频、该词对应的文本数、词性和词权重。
5. 如权利要求1所述的方法,其特征在于,所述计算词权重具体包括: 根据以下公式计算词的词权重:
其中,weight(term)为词权重,b(term)和a(term)为经验修正值,tf(term)为词的词 频,df(term)为词对应的文本数,|d|为文本总数。
6. -种基于社交网络的关键词提取装置,其特征在于,包括: 分词模块,用于对待提取文本进行分词,并将分词后的词传输给统计模块; 所述统计模块,用于统计词的词频和该词对应的文本数,并将统计结果传输给计算模 块; 所述计算模块,用于根据所述词频和该词对应的文本数,计算词权重,并将计算结果传 输给选取模块; 所述选取模块,用于选取第一预设值个词权重较大的词作为候选关键词,并将选取结 果传输给提前模块; 所述提取模块,用于从候选关键词中提取第二预设值个在待提取文本中出现频率较大 的候选关键词作为关键词。
7. 如权利要求6所述的装置,其特征在于,所述装置还包括: 噪声过滤模块,用于对待提取文本进行噪声过滤,并将过滤后的文本传输给文本去重 模块; 所述文本去重模块,用于将过滤后的文本进行去重; 和/或, 词性标注模块,用于对分词进行词性标注,该词性为符合提取规则的第一词性或不符 合提取规则的第二词性,并将标注结果传输给所述选取模块; 所述选取模块,还用于从词性为第一词性的词中,选取第一预设值个词权重较大的词 作为候选关键词。
8. 如权利要求7所述的装置,其特征在于,所述噪声过滤模块包括: 设定子模块,用于设定噪声过滤规则,并将设定的噪声过滤规则传输给匹配子模块; 遍历子模块,用于遍历待提取文本,并将遍历结果传输给所述匹配子模块; 所述匹配子模块,用于根据设定的噪声过滤规则,对待提取文本中的字符进行匹配,若 待提取文本中的字符属于所述噪声过滤规则,则匹配成功,并将匹配成功的字符传输给第 一删除子模块; 所述第一删除子模块,用于将匹配成功的字符删除; 和/或, 所述文本去重模块包括: 映射子模块,用于将当前过滤后的文本映射成指纹信息,将映射结果传输给比较子模 块; 所述比较子模块,用于将该当前过滤后的文本与指纹信息库进行比较,并将比较结果 中存在差异的指纹个数小于等于第三预设值的当前过滤的文本传输给第二删除子模块,以 及将比较结果中存在差异的指纹个数不小于第三预设值的当前过滤的文本传输给保存子 模块; 所述第二删除子模块,用于将当前过滤后的文本删除; 所述保存子模块,用于将当前过滤后的文本的指纹信息加入所述指纹信息库中。
9. 如权利要求6所述的装置,其特征在于,所述装置还包括: 分配模块,用于为每个不重复的词分配词索引号,以及为去重后的文本分配文本索引 号,并将分配结果传输给保存模块; 所述保存模块,用于将词的索引号以及与索引号对应的词的特征保存到词索引表中, 以及根据去重后的文本中词的位置关系,将去重后的文本的文本索引号以及该去重后的文 本中词的词索引号保存到文本索引表中; 其中,所述词的特征包括:词的词频、该词对应的文本数、词性和词权重。
10.如权利要求6所述的装置,其特征在于,所述计算模块,用于根据以下公式计算词 的词权重:
其中,weight(term)为词权重,b(term)和a(term)为经验修正值,tf(term)为词的词 频,df(term)为词对应的文本数,|d|为文本总数。
【专利摘要】本发明提供一种基于社交网络的关键词提取方法及装置,方法包括:对待提取文本进行分词,并统计词的词频和该词对应的文本数;根据所述词频和该词对应的文本数,计算词权重,选取第一预设值个词权重较大的词作为候选关键词,从候选关键词中提取第二预设值个在待提取文本中出现频率较大的候选关键词作为关键词。本发明通过对待提取文本进行噪声过滤、文本去重、分词以及计算词权重,进而根据词权重提取关键词,由于不需要大量的历史搜索信息,从而提高了提取速度。
【IPC分类】G06F17-30, G06F17-27
【公开号】CN104572736
【申请号】CN201310503897
【发明人】赵立永, 于晓明, 杨建武
【申请人】北大方正集团有限公司, 北京大学, 北京北大方正电子有限公司
【公开日】2015年4月29日
【申请日】2013年10月23日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1