基于移动互联网访问的文本内容分类方法

文档序号:6542413阅读:188来源:国知局
基于移动互联网访问的文本内容分类方法
【专利摘要】基于移动互联网访问的文本内容分类方法,属于海量的大数据处理和内容分类领域。本发明采用人工智能专家系统的方法,首先通过建立URL清洗的知识库,通过清洗推理机过滤掉不是访问者最终浏览到内容,即“垃圾”。然后,根据URL分类知识库和代表词分类知识库、以及相关推理机,将移动互联网访问的“有效”的内容进行分类。对URL清洗、URL内容分类和代表词内容分类三大知识库的更新,使系统变得越来聪明,不仅提高了内容分类的效率,更重要是提高了内容分类的覆盖面和准确程度。
【专利说明】基于移动互联网访问的文本内容分类方法
【技术领域】
[0001]本发明属于海量的大数据处理和内容分类领域,特别是涉及到一个基于移动互联网访问的、百亿级利记体育的海量数据处理的文本内容分类方法。
技术背景
[0002]目前,作为省级电信运营商在从“话务经营”向“流量经营”的业务转型过程中,其用户每天访问移动互联网的页面URL数少者有几亿条、多者有几十亿条、甚至上百亿条,涉及的网站几十万,其文本内容千变万化。因此,如何对用户访问的文本内容进行准确、高效率地分类,从而来分析用户的访问行为,实现精准地刻画客户访问兴趣特征,是三大运营商急需解决的智能营销的核心问题。
[0003]在实际运营中,电信运营商对如此海量的大数据多数采用的是域名分类法或网站分类法进行内容分类。实际上,网站和域名分类法就是人工梳理网站的频道(或栏目)、子频道(或子栏目),其缺点第一是分类准确性很低,包含有大量的“垃圾”页面URL在分类之中;第二是属于人工分类、不能实现机器自动分类;第三是分类的类别太多,多达四五千个。然而,实际工作中只需要百十余个,因此不能准确地刻画客户的兴趣特征的同时,还浪费了大量系统资源;第四是分类不灵活,网站没有的频道或栏目就无法进行分类。特别是,基于移动互联网访问的文本内容分类是对"有效"内容的分类,要求能够通过该内容分析客户在移动互联网上的访问行为,来精准地刻画客户的兴趣特征,达到降低运营成本、提高服务水平、减少客户投诉、增加企业收益的智能营销的目的。因此,需要清洗导航、功能、统计、天气、错误、流量、登录、下载、版权、接口、脚本等“垃圾”页面URL。
[0004]在学术上,自动内容分类方法已经成为研究自然语言处理的热点,其分类方法各种各样,归结为有⑴基于IF-THEN专家推理规则的分类方法;(2)基于自然语言利用神经网络的学习算法;(3)基于关键词的语言算法等的语义分析;⑷基于一组词或词组在文中出现频率、位置、以及词与词间的亲近程度的模式匹配;(5)通过识别内容中的共性元素进行聚类分类;(6)基于概率统计的贝叶斯分类;(7)遗传算法分类优化技术等等……。但是,这些分类方法只解决某些部分的具体应用、数据规模比较小、没有海量“垃圾”的内容分类。
[0005]然而,不论是在实际应用中还是在学术研究上,现有的技术都没有能解决如此海量大数据的移动互联网文本内容的分类问题,即没有解决超过一半以上“垃圾”页面清洗过滤的问题、以及没有解决百亿级别的内容分类等问题。

【发明内容】

[0006]鉴于以上存在的问题,本发明的目的在于:提供一种通过人工智能专家系统构建的基于移动互联网访问的文本内容分类方法、系统及装置,旨在解决省级电信运营商业务转型中如何处理百亿级海量访问内容(页面URL)的“垃圾”清洗、如何对“有效”内容进行准确而高效的分类、如何对数据清洗知识和内容分类知识进行更新的问题。
[0007]本发明的目的是通过如下技术方案实现:[0008]一种基于移动互联网访问的文本内容分类方法,其特征在于,包括:如下步骤:
[0009](I)数据清洗:针对用户在移动互联网上的访问记录,根据“URL清洗知识库”,调用“URL清洗推理机”清洗访问记录中的“垃圾”页面内容,即不是用户最终浏览的“有效”内容;
[0010](2)已知内容分类:所述的已知内容是用户在移动互联网上浏览的内容已经纳入到“URL分类知识库”中的内容,其分类是在步骤(I)的基础上,根据“URL分类知识库”调用“URL分类推理机”进行的内容分类;
[0011](3)未知内容分类:未知内容是用户在移动互联网上浏览的内容未能纳入“URL分类知识库”知识库中的内容,其分类是在步骤(2)的基础上,爬取分类未成功的页面,并进行切词、过滤和去重,然后再根据“代表词分类知识库”,调用“代表词分类推理机”进行的内容分类。
[0012](4)知识更新:根据步骤(3) “代表词分类推理机”中生成的“垃圾URL特征数据”、“新增URL分类数据”和“新增代表词分类数据”三个中间文件,分别调用“URL清洗知识更新”引擎、“URL分类知识更新”引擎和“代表词分类知识更新”引擎进行更新,经人工确认后更新URL清洗知识库”和“URL分类知识库知识库”中的相应知识和规则,自动更新“代表词分类知识库”中的相应知识和规则。
[0013]所述步骤(I)中的“URL清洗推理机”,的清洗规则包括:
[0014](I)格式验证:完整性验证,即访问记录的核心字段是否包括用户ID,URL格式,访问时间(包括日期YYYY-MM-DD和时间HH:MM:SS),只要不包括其中一个字段,即为数据不完整,则清洗掉该条记录;一致性验证是验证用户ID、URL和访问时间格式是否规范,若不规范,则清洗掉该条记录;
[0015](2) “完全URL”垃圾清洗推理:从“URL清洗知识库”读取清洗知识,在完全URL特征的Hash散列表中,推理在原始的访问记录页面URL中是否存在“完全URL”为“垃圾”页面特征?若存在,执行步骤(7)推理;若不存在,则进行步骤(3)推理;
[0016](3) “含一级域名”垃圾清洗推理;从原始URL中截取“一级域名”,构造为特征容器包装类TLDS,在“一级域名”特征的Hash散列表中,推理是否存在TLDS为“垃圾”页面的特征;若存在“一级域名”,则进行步骤(5)推理。若不存在,则执行步骤(4)推理;
[0017](4) “不含一级域名”垃圾清洗推理:若不存在“一级域名”,则获取不含一级域名“垃圾”页面特征知识的List,在List中包括后缀、左侧、左右和包含四类匹配知识,按照知识特征的置信度降幂顺序进行匹配推理。若匹配成功,则执行步骤(7)推理。若匹配失败,则数据清洗结束;
[0018](5) “完整域名”垃圾清洗推理:从原始URL中截取“完整域名”,构造为特征容器包装类DOMAIN,在完整域名特征的Hash散列表中,推理是否存在DOMAIN为“垃圾”页面的特征;若存在“完整域名”,则获取完整域名“垃圾”页面特征知识的List,在List中有右侧匹配知识和包含匹配知识,若匹配成功,则执行步骤(7)推理,若匹配失败,执行步骤(6)推理;
[0019](6) “不完整域名”垃圾清洗推理:若在Hash散列表中不存在“完整域名”,则获取不完整域名“垃圾”特征的知识List,在List中包括左侧、左右和包含三类匹配知识,按照“不完整域名”知识特征的置信度降幂顺序进行匹配推理。若匹配成功,则执行步骤(7)推理;若匹配失败,则执行步骤(4)推理;
[0020](7)若清洗推理匹配成功,则对“URL清洗知识库”进行更新,同时在原始“移动互联网访问记录”中删除“垃圾”数据,数据清洗结束。
[0021]所述的步骤(2)中的“URL分类推理机”,其分类规则包括:
[0022](1) “完全URL”分类知识推理:对于通过URL清理过后的有效访问数据,从“URL分类知识库”读取基于URL的内容分类知识,在完全URL特征的Hash散列表中,推理在清洗后的“有效”的访问记录页面URL中是否存在完全链接信息“完全URL”为内容分类特征?若存在,执行步骤(6)推理;若不存在,则进行步骤(2)推理;
[0023](2) “含一级域名”分类知识推理:从清洗后的“有效”的访问页面URL中截取“一级域名”,构造为特征容器包装类TLDS,在“一级域名”特征的Hash散列表中,推理是否存在TLDS为内容分类特征?若存在“一级域名”,则进行步骤(4)推理。若不存在,则执行步骤
(3)推理;
[0024](3)“不含一级域名”分类知识推理:获取不含一级域名内容分类特征的知识List,在List中包括左侧、左右和包含三类匹配知识,按照知识特征的置信度降幂顺序进行匹配推理。若匹配成功,则执行步骤(6)推理。若匹配失败,内容分类结束;
[0025](4) “完整域名”分类知识推理:从“有效”的访问页面URL中截取“完整域名”,构造为特征容器包装类DOMAIN,在完整域名特征的Hash散列表中,推理是否存在DOMAIN为内容分类特征;若存在,则获取完整域名“有效”特征的知识List,在List中有右侧匹配知和包含匹配识。若匹配成功,则执行步骤(6)推理。若匹配失败,则况执行步骤(5)推理;
[0026](5) “不完整域名”分类知识推理:获取“不完整域名”内容分类特征知识的List,在List中包括左侧、左右和包含三类匹配知识,按照完整域名知识特征的置信度降幂顺序进行匹配推理。若匹配成功,则执行步骤(6)推理;若匹配失败,则执行步骤(3)推理;
[0027](6)若内容分类推理匹配成功,则对“URL分类知识库”实时更新,同时将内容分类结果存储到“URL分类结果”数据文件中,内容分类结束。
[0028]所述的步骤(3)中的“代表词分类推理机”,其分类规则包括:
[0029](1)首先对待分类页面URL的标题Title进行切词,然后与元信息Meta中的关键词进行合并,同时计算出合并后代表词的频度,构成页面特征向量Wpage=KW1, fi),(w2,f2),..., (Wi, fi),…},其中i=l、2、…、M,M为页面中代表词数;若Wpage为空,该页面没有标题和元信息,则对页面正文Body进行切词,用与标题和元信息同样方法构成页面特征向量
W."Page.[0030](2)从“代表词分类知识库”中读取所有的分类知识:
[0031]
【权利要求】
1.一种基于移动互联网访问的文本内容分类方法,其特征在于,包括:如下步骤: (1)数据清洗:针对用户在移动互联网上的访问记录,根据“URL清洗知识库”,调用“URL清洗推理机”清洗访问记录中的“垃圾”页面内容,即不是用户最终浏览的“有效”内容; (2)已知内容分类:所述的已知内容是用户在移动互联网上浏览的内容已经纳入到“URL分类知识库”中的内容,其分类是在步骤(1)的基础上,根据“URL分类知识库”调用“URL分类推理机”进行的内容分类; (3)未知内容分类:未知内容是用户在移动互联网上浏览的内容未能纳入“URL分类知识库”知识库中的内容,其分类是在步骤(2)的基础上,爬取分类未成功的页面,并进行切词、过滤和去重,然后再根据“代表词分类知识库”,调用“代表词分类推理机”进行的内容分类。 (4)知识更新:根据步骤(3)“代表词分类推理机”中生成的“垃圾URL特征数据”、“新增URL分类数据”和“新增代表词分类数据”三个中间文件,分别调用“URL清洗知识更新”引擎、“URL分类知识更新”引擎和“代表词分类知识更新”引擎进行更新,经人工确认后更新“URL清洗知识库”和“URL分类知识库”中的相应知识和规则,自动更新“代表词分类知识库”中的相应知识和规则。
2.如权利要求1所述的基于移动互联网访问的文本内容分类方法,其特征在于,所述步骤(1)中的“URL清洗推理机”,的清洗规则包括: (1)格式验证:完整性验证,即访问记录的核心字段是否包括用户ID,URL格式,访问时间(包括日期YYYY-MM-DD和时间HH:丽:SS),只要不包括其中一个字段,即为数据不完整,则清洗掉该条记录;一致性验证是验证用户ID、URL和访问时间格式是否规范,若不规范,则清洗掉该条记录; (2)“完全URL”垃圾清洗推理:从““URL清洗知识库””读取清洗知识,在完全URL特征的Hash散列表中,推理在原始的访问记录页面中是否存在完全链接信息“完全URL”为“垃圾”页面特征?若存在,执行步骤(7)推理。若不存在,则进行步骤(3)推理; (3)“含一级域名”垃圾清洗推理;从原始URL中截取“一级域名”,构造为特征容器包装类TLDS,在“一级域名”特征的Hash散列表中,推理是否存在TLDS为“垃圾”页面的特征;若存在“一级域名”,则进行步骤(5)推理;若不存在,则执行步骤(4)推理; (4)“不含一级域名”垃圾清洗推理:若不存在“一级域名”,则获取不含一级域名“垃圾”页面特征知识的List,在List中包括后缀、左侧、左右和包含四类匹配知识,按照知识特征的置信度降幂顺序进行匹配推理。若匹配成功,则执行步骤(7)推理。若匹配失败,则数据清洗结束; (5)“完整域名”垃圾清洗推理:从原始URL中截取“完整域名”,构造为特征容器包装类DOMAIN,在完整域名特征的Hash散列表中,推理是否存在DOMAIN为“垃圾”页面的特征;若存在“完整域名”,则获取完整域名“垃圾”页面特征知识的List,在List中有右侧匹配知识和包含匹配知识,如果匹配成功,执行步骤(7)推理,如果匹配失败,执行步骤(6)推理; (6)“不完整域名”垃圾清洗推理:若在Hash散列表中不存在“完整域名”,则获取不完整域名“垃圾”特征的知识List,在List中包括左侧、左右和包含三类匹配知识,按照“不完整域名”知识特征的置信度降幂顺序进行匹配推理。若匹配成功,则执行步骤(7)推理;若匹配失败,则执行步骤(4)推理; (7)若清洗推理匹配成功,则对“URL清洗知识库”进行更新,同时在原始“移动互联网访问记录”中删除“垃圾”数据,数据清洗结束。
3.如权利要求1所述的基于移动互联网访问的文本内容分类方法,其特征在于,所述的步骤(2)中的“URL分类推理机”,其分类规则包括: (1)“完全URL”分类知识推理:对于通过URL清理过后的有效访问数据,从“URL分类知识库”读取基于URL的内容分类知识,在完全URL特征的Hash散列表中,推理在清洗后的“有效”的访问记录页面中是否存在完全链接信息“完全URL”为内容分类特征;若存在,执行步骤(6)推理;若不存在,则进行步骤(2)推理; (2)“含一级域名”分类知识推理:从“有效”的访问页面URL中截取“一级域名”,构造为特征容器包装类TLDS,在“一级域名”特征的Hash散列表中,推理是否存在TLDS为内容分类特征?若存在“一级域名”,则进行步骤(4)推理。若不存在,则执行步骤(3)推理; (3)“不含一级域名”分类知识推理:获取不含一级域名内容分类特征的知识List,在List中包括左侧、左右和包含三类匹配知识,按照知识特征的置信度降幂顺序进行匹配推理。若匹配成功,则执行步骤(6)推理。若匹配失败,则内容分类结束; (4)“完整域名”分类知识推理:从“有效”的访问页面URL中截取“完整域名”,构造为特征容器包装类DOMAIN,在完整域名特征的Hash散列表中,推理是否存在DOMAIN为内容分类特征;若存在,则获取完整域名“有效”特征的知识List,在List中有右侧匹配知和包含匹配识。若匹配成功,则执行步骤(6)推理。若匹配失败,则况执行步骤(5)推理; (5)“不完整域名”分类知识推理:获取“不完整域名”内容分类特征知识的List,在List中包括左侧、左右和包含三类匹配知识,按照完整域名知识特征的置信度降幂顺序进行匹配推理。若匹配成功,则执行步骤(6)推理;若匹配失败,则执行步骤(3)推理; (6)若内容分类推理匹配成功,则对“URL分类知识库”实时更新,同时将内容分类结果存储到“URL分类结果”数据文件中,内容分类结束。
4.如权利要求1所述的基于移动互联网访问的文本内容分类方法,其特征在于,所述的步骤(2)中的“代表词分类推理机”,其分类规则包括: (1)首先对待分类页面URL的标题Title进行切词,然后与元信息Meta中的关键词进行合并,同时计算出合并后代表词的频度,构成页面特征向量Wpage=KW1, fi),(w2, f2)r..,(Wi, fi),…},其中i=l、2、…、M,M为页面中代表词数;若Wpage为空,该页面没有标题和元信息,则对页面正文Body进行切词,用与标题和元信息同样方法构成页面特征向量Wpage: (2)从“代表词分类知识库”中读取所有的分类知识:
5.如权利要求1所述的基于移动互联网访问的文本内容分类方法,其特征在于,所述的步骤(3)中的“URL清洗知识库”的更新,其更新规则包括: (1)根据客户移动互联网访问行为分析,计算“垃圾”页面URL的PV值和置信度,并给出“垃圾”页面和对应的URL特征的Top排名; (2)新增URL清洗知识的添加:根据垃圾页面的置信度,经人工确认,将新URL清洗知识添加到规则中,即将完全匹配、一级域名和完整域名Hash特征包装类中的知识添加到“URL清洗知识库”中,和将特征包装类构造下的List中的后缀规则、右侧规则、左侧规则、包含规则和左右规则中的知识添加到“URL清洗知识库”中; (3)URL清洗推理规则的更新:实时更新基于URL清洗的推理规则,即在完全匹配、一级域名和完整域名Hash特征包装类中更新检索序列,在特征包装类构造下的List中更新后缀规则、右侧规则、左侧规则、包含规则和左右规则中更新URL清洗知识的推理优先级别; (4)URL清洗陈旧知识的删除:根据客户移动互联网访问行为分析”,若URL清洗知识N天没有被使用过,则认定为陈旧知识,从“URL清洗知识库”中删除;N为预先设置的阈值。
6.如权利要求1所述的基于移动互联网访问的文本内容分类方法,其特征在于,所述步骤(3)中的“URL分类知识库”的更新,其更新规则包括: (1)根据客户移动互联网访问行为分析,计算用户访问内容分类页面URL的PV值和置信度,并给出内容分类页面和对应的URL特征的Top排名; (2)新增内容分类知识的添加:根据内容分类页面的置信度,经人工确认,将新URL内容分类知识添加到规则中,即将完全URL、一级域名和完整域名Hash特征包装类中的知识添加到“URL分类知识库”中,和将特征包装类构造下的List中的后缀规则、右侧规则、左侧规则、包含规则和左右规则中的知识添加到“URL分类知识库”中; (3)内容分类推理规则的更新:实时更新基于URL内容分类的推理规则,即在完全URL、一级域名和完整域名Hash特征包装类中更新检索序列,在特征包装类构造下的List中更新后缀规则、右侧规则、左侧规则、包含规则和左右规则中更新内容分类推理知识的优先级别; (4)内容分类陈旧知识的删除:根据客户移动互联网访问行为分析”,若URL内容分类知识N天没有被使用过,则认定为陈旧知识,从“URL分类知识库”中删除;N为预先设置的阈值。
7.如权利要求1所述的基于移动互联网访问的文本内容分类方法,其特征在于,所述的步骤(3)中“代表词分类知识库”的更新,其更新规则包括: (1)根据“新增代表词分类数据”中间文件,提取第Ck类的新增代表词为:
【文档编号】G06F17/30GK103902703SQ201410126495
【公开日】2014年7月2日 申请日期:2014年3月31日 优先权日:2014年3月31日
【发明者】孙宏, 赵晓波, 季海东, 董童霖, 赵宇龙 申请人:辽宁四维科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1