文本内容挖掘方法及装置制造方法
【专利摘要】本发明公开一种文本内容挖掘方法及装置,其方法包括:实时创建挖掘文本;对挖掘文本所包括的文字进行文字拆分,生成候选串并统计串频率;计算各候选串的左右熵;根据串频率及各候选串的左右熵计算获取各候选串的综合权重并筛选,创建目标词的集合。本发明通过实时收集数据并确定挖掘文本,对挖掘文本进行文字拆分,生成候选串并统计串频率,计算各候选串的左右熵;然后根据串频率及各候选串的左右熵计算获取各候选串的综合权重并筛选,其不依赖于现有词典,能够快速准确地挖掘出各个时段出现的新词热词等流行词,由此给数据的索引、基于词典的网页分词、焦点事件的快速发现及追踪提供了重要价值。
【专利说明】文本内容挖掘方法及装置
【技术领域】
[0001] 本发明实施例涉及互联网【技术领域】,尤其涉及一种文本内容挖掘方法及装置。
【背景技术】
[0002] 随着互联网技术的快速发展,网络信息呈爆炸式增长,这给基于海量信息的离线 挖掘提供了良好的数据基础。此外,随着博客、微博等各种形式的社交网络媒体或平台的兴 起,每天的热门事件更加聚焦;同时文本内容中包括的文字也逐渐趋于口语化、浓缩化,由 此产生了大量的以前从未出现的词语,比如新词、热词等流行词。如何及时准确发现这些新 词及热词,对于追踪实时热点、改进分词及索引效果等都具有重要意义。
[0003] 现有技术主要是通过搜索引擎的用户查询行为来发现新词热词,当某一段时间 内,用户检索词里存在大量相似信息时,予以挖掘。
[0004] 但是,现有技术的这种挖掘方法,主要依赖于用户行为数据,而这种用户行为数据 通常仅限于搜索引擎本地搜索业务使用,因为用户行为数据会涉及到用户隐私以及搜索业 务自身的商业机密等问题,通常不会对外公开,因此,其无法广泛应用于其它网络搜索业 务。另外,依靠用户搜索行为的挖掘模式在时间上还存在一定的滞后性。
【发明内容】
[0005] 本发明实施例提供一种挖掘周期短的文本内容挖掘方法及装置。
[0006] 为了达到上述目的,本发明实施例提出一种文本内容挖掘方法,包括:
[0007] 实时创建挖掘文本;
[0008] 对所述挖掘文本所包括的文字进行文字拆分,生成候选串并统计串频率;
[0009] 计算各候选串的左右熵;
[0010] 根据所述串频率及各候选串的左右熵计算获取各候选串的综合权重并筛选,创建 目标词的集合。
[0011] 本发明实施例还提出一种文本内容挖掘装置,包括:
[0012] 获取模块,用于实时创建挖掘文本;
[0013] 生成统计模块,用于对所述挖掘文本所包括的文字进行文字拆分,生成候选串并 统计串频率;
[0014] 计算模块,用于计算各候选串的左右熵;
[0015] 计算获取模块,用于根据所述串频率及各候选串的左右熵计算获取各候选串的综 合权重并筛选。
[0016] 本发明实施例提出的一种文本内容挖掘方法及装置,通过实时创建挖掘文本,对 挖掘文本所包括的文字进行文字拆分,生成候选串并统计串频率,计算各候选串的左右熵; 然后根据串频率及各候选串的左右熵计算获取各候选串的综合权重并筛选,创建目标词的 集合,本发明不依赖于现有词典,能够快速准确地挖掘出各个时段出现的新词热词等流行 词,这给数据的索引、基于词典的网页分词、焦点事件的快速发现及追踪提供了重要价值。
【专利附图】
【附图说明】
[0017] 图1是本发明文本内容挖掘方法较佳实施例的流程示意图;
[0018] 图2是本发明文本内容挖掘方法较佳实施例中挖掘网页中流行词的具体处理流 程不意图;
[0019] 图3是本发明文本内容挖掘装置较佳实施例的结构示意图;
[0020] 图4是本发明文本内容挖掘装置较佳实施例中获取模块的结构示意图。
[0021] 为了使本发明实施例的技术方案更加清楚、明了,下面将结合附图作进一步详述。
【具体实施方式】
[0022] 本发明实施例的解决方案主要是:实时收集数据并确定挖掘文本,对挖掘文本进 行文字拆分,生成候选串并统计串频率,计算各候选串的左右熵;然后根据串频率及各候选 串的左右熵计算获取各候选串的综合权重并筛选,能够快速准确地挖掘出所述发明实施例 文本内容挖掘方法挖掘的目标词,目标词可以是各个时段出现的新词热词等流行词。
[0023] 如图1所示,本发明实施例提出一种文本内容挖掘方法,包括:
[0024] 步骤S101,实时创建挖掘文本;
[0025] 本实施例中所述文本包括可供挖掘的流行词,所述流行词是指随着互联网技术发 展而出现的比较流行的新词、热词等。
[0026] 本实施例可以不依赖于现有词典来对新词和热词进行快速准确的离线挖掘。
[0027] 首先实时创建挖掘文本,具体可以通过实时收集网络信息文档来确定挖掘集合, 并从挖掘集合中提取挖掘文本。
[0028] 其中,网络信息文档可以是网页、微博、博客、论文等网络文本。
[0029] 具体地,实时收集网络信息文档,该网络信息文档可以来自以下两种收集方式,一 是用户通过浏览器所访问过的网络文档;另一种是通过网页爬虫技术不间断地从各个网站 抓取到的网络文档。由于上述两种收集方式均为流式收集方式,因此数据的实时性能够得 到很好的保证。
[0030] 之后将收集的网络信息文档按照收集时间进行排序;确定预定期限内(比如最新 的)的预定数量(比如一万个)的网络信息文档作为挖掘集合;并对该挖掘集合中的每一网 络信息文档内容进行解析,提取符合条件的文字,作为该网络信息文档的挖掘文本。以网页 为例:考虑到网页一般在标题里包含了页面的主体内容,因此可以只提取网页标题作为挖 掘文本,而且可以大大降低挖掘复杂性并提高挖掘效率,另一方面也保持了数据的信息含 量及挖掘准度。
[0031] 步骤S102,对所述挖掘文本所包括的文字进行文字拆分,生成候选串并统计串频 率;
[0032] 具体将挖掘文本拆分为单一汉字,并统计每一汉字在所述挖掘集合中出现的字频 率;然后基于拆分后的汉字,生成每一标题的候选串并统计串频率。
[0033] 以网页为例,将每一网页标题拆分为单一的汉字,并统计每一汉字在挖掘集合中 出现的字频率。比如,标题"在信息论里面"被拆分为"在I信I息I论I里I面",由此可 以统计各个汉字"在、信、息、论、里、面"在挖掘集合中出现的频率。
[0034] 同时,基于拆分后的汉字,生成每一标题的候选串并统计串频率。其中,候选串指 每个标题的所有连续且长度为N的子串的集合。比如,标题为"在信息论里面"中,以两字 为一串(N=2)举例,该标题"在信息论里面"可以拆分生成5个候选串"在信、信息、息论、论 里、里面"。
[0035] 步骤S103,计算各候选串的左右熵;
[0036] 其中,在信息论里,熵是对不确定性的度量,可表示一个随机变量的混乱程度。
[0037] 本实施例在计算各候选串的左右熵时,可以根据上述统计的每一汉字在挖掘集合 中出现的字频率,采用以下预设的熵公式来计算:
[0038] H(X) =sum(_p*logp) (1)
[0039] 上述式(1)中,Η表示熵,p表示挖掘集合中每一汉字在挖掘集合中出现的字频率。
[0040] 步骤S104,根据所述串频率及各候选串的左右熵计算获取各候选串的综合权重并 筛选,创建目标词的集合。
[0041] 其中,综合权重的公式如下:
[0042]
【权利要求】
1. 一种文本内容挖掘方法,其特征在于,包括: 实时创建挖掘文本; 对所述挖掘文本所包括的文字进行文字拆分,生成候选串并统计串频率; 计算各候选串的左右熵; 根据所述串频率及各候选串的左右熵计算获取各候选串的综合权重并筛选,创建目标 词的集合。
2. 根据权利要求1所述的方法,其特征在于,所述实时创建挖掘文本的步骤包括: 获取挖掘集合,从中提取可供挖掘的信息以创建挖掘文本。
3. 根据权利要求2所述的方法,其特征在于,所述获取挖掘集合,从中提取可供挖掘的 信息以创建挖掘文本的步骤包括: 实时收集网络信息文档; 将收集的网络信息文档按照收集时间进行排序; 确定预定期限内的预定数量的网络信息文档作为挖掘集合; 对所述挖掘集合中的每一网络信息文档内容进行解析,提取符合条件的文字,作为该 网络信息文档的挖掘文本。
4. 根据权利要求3所述的方法,其特征在于,所述网络信息文档为网页;所述提取符合 条件的文字,作为该网络信息文档的挖掘文本的步骤包括: 从所述网页中提取网页标题,作为所述网页的挖掘文本。
5. 根据权利要求4所述的方法,其特征在于,所述对挖掘文本进行文字拆分,生成候选 串并统计串频率的步骤包括: 将每一网页标题拆分为单一汉字,并统计每一汉字在所述挖掘集合中出现的字频率; 基于拆分后的汉字,生成每一标题的候选串并统计串频率。
6. 根据权利要求1所述的方法,其特征在于,所述对挖掘文本所包括的文字进行文字 拆分,生成候选串并统计串频率的步骤包括: 将挖掘文本拆分为单一汉字,并统计每一汉字在所述挖掘文本所在挖掘集合中出现的 字频率; 基于拆分后的汉字,生成每一标题的候选串并统计串频率。
7. 根据权利要求6所述的方法,其特征在于,所述计算各候选串的左右熵的步骤包括: 根据所述字频率及预设的熵公式计算各候选串的左右熵。
8. 根据权利要求1-7中任一项所述的方法,其特征在于,所述根据串频率及各候选串 的左右熵计算获取各候选串的综合权重并筛选的步骤之前还包括: 根据所述串频率及各候选串的左右熵的相关权重因子阈值对是否进行综合权重计算 进行过滤。
9. 一种文本内容挖掘装置,其特征在于,包括: 获取模块,用于实时创建挖掘文本; 生成统计模块,用于对所述挖掘文本所包括的文字进行文字拆分,生成候选串并统计 串频率; 计算模块,用于计算各候选串的左右熵; 计算获取模块,用于根据所述串频率及各候选串的左右熵计算获取各候选串的综合权 重并筛选,创建目标词的集合。
10. 根据权利要求9所述的装置,其特征在于,所述获取模块还用于获取挖掘集合,从 中提取可供挖掘的信息以创建挖掘文本。
11. 根据权利要求10所述的装置,其特征在于,所述获取模块包括: 收集单元,用于实时收集网络信息文档; 排序单元,用于将收集的网络信息文档按照收集时间进行排序; 确定单元,用于确定预定期限内的预定数量的网络信息文档作为挖掘集合; 解析提取单元,用于对所述挖掘集合中的每一网络信息文档内容进行解析,提取符合 条件的文字,作为该网络信息文档的挖掘文本。
12. 根据权利要求11所述的装置,其特征在于,所述网络信息文档为网页;所述解析提 取单元还用于从所述网页中提取网页标题,作为所述网页的挖掘文本。
13. 根据权利要求12所述的装置,其特征在于,所述生成统计模块还用于将每一网页 标题拆分为单一汉字,并统计每一汉字在所述挖掘集合中出现的字频率;基于拆分后的汉 字,生成每一标题的候选串并统计串频率。
14. 根据权利要求9所述的装置,其特征在于,所述生成统计模块还用于将挖掘文本拆 分为单一汉字,并统计每一汉字在所述挖掘文本所在挖掘集合中出现的字频率;基于拆分 后的汉字,生成每一标题的候选串并统计串频率。
15. 根据权利要求14所述的装置,其特征在于,所述计算模块还用于根据所述字频率 及预设的熵公式计算各候选串的左右熵。
16. 根据权利要求9-15中任一项所述的装置,其特征在于,还包括: 过滤模块,用于根据所述串频率及各候选串的左右熵的相关权重因子阈值对是否进行 综合权重计算进行过滤。
【文档编号】G06F17/30GK104102658SQ201310121492
【公开日】2014年10月15日 申请日期:2013年4月9日 优先权日:2013年4月9日
【发明者】蔡兵 申请人:腾讯科技(深圳)有限公司