海量文本中低占比信息识别方法及装置的制造方法

文档序号:9887750阅读:180来源:国知局
海量文本中低占比信息识别方法及装置的制造方法
【技术领域】
[0001] 本发明涉及大数据处理方法,尤其涉及一种在待识别信息占比很低的海量信息中 进行信息识别的方法及装置。
【背景技术】
[0002] 随着互联网的不断发展,互联网舆论(博客,论坛,微博、微信公众号等)已经取代 平面媒体,成为舆论的重要来源。针对互联网的舆论分析对企业有重要作用,例如,在新产 品的营销方面,通过收集互联网上的情感信息并进行分析,企业可以进行更全面的客户体 验管理和公司反馈管理,了解群众的需求,为公司更好地完善自己的产品,制定更符合用户 的生产策略提供帮助,为用户提供更好的服务;而对于政府、央企等大型机构而言,互联网 舆论越来越对自身的品牌形象有重大影响,需要针对性地监测、引导,避免有不利于自身的 不实舆论得到广泛传播,这就带来了对互联网负面言论监测的广泛需求,特别是针对负面 舆情的识别是监测。
[0003] -个完整的互联网负面舆情监测系统,涉及到互联网信息采集、相关性判断、负面 倾向性分析、可视化展示等过程:
[0004] 1.互联网信息采集。通过网络爬虫,从指定的新闻门户、论坛、博客、微博等站点抓 取最新的互联网舆情信息。
[0005] 2.相关性判断。对采集到的舆情进行相关性判断(是否与目标组织有关,比如:是 否有"XX企业"有关),将不相关的信息进行丢弃处理。
[0006] 3.负面倾向性分析。对目标组织相关的互联网舆情,进行倾向性判断。倾向性包括 正面、中立和负面,其中,有价值的是负面。
[0007] 4.可视化展示。将监测到的负面舆情以表格、图文、报表等方式进行统计展示,供 舆情监测工作人员使用。
[0008] 然而,在实践过程中,我们发现将目前机器学习领域文本分析的成熟算法直接用 于互联网负面舆情的识别的效果并不好,主要是因为互联网负面舆情在所有舆情中的占比 很小,导致传统机器学习算法难以准确识别,即:分析过程的"欠拟合"现象。
[0009] 例如图1所示,根据我们运营的某大型央企舆情监测系统统计显示,每年采集约 1000万条相关舆情信息,其中负面舆情每年不超过5万条,占比小于0.5 %。而如上文所述, 传统的机器学习算法采用的是模式相关性判断方法,即将"待分析舆情"与"正面或中立舆 情模式"以及"负面舆情模式"二者进行相关性判断,其是否被判断为负面舆情,取决于与 "负面舆情的模式"相关性是否比较高。在"正面或中立舆情"文章占绝大多数比例情况下, 少量的负面舆情经常难以被识别出来,通常称这种现象为"欠拟合"。
[0010] 综上所述,在互联网舆情信息的负面倾向性判断过程中,现有的方案存在"需要维 护词典,且由于词典更新无法满足时效而导致误判和漏判"以及"负面舆情占比小,传统机 器学习算法直接应用容易产生过拟合"等缺陷,不能很好解决负面舆情的倾向性判断问题。 本专利提出一种利用基于传统机器学习算法的综合优化思路,能够解决上述问题,从而能 够有效地用于舆情情感倾向性分析中。

【发明内容】

[0011]为此,需要提供一种大数据中识别少量待识别信息的方法。
[0012]为实现上述目的,发明人提供了一种海量文本中低占比信息识别方法,包括如下 步骤,将素材信息分为训练信息和测试信息,将所述素材信息通过特征选择、向量化处理转 化成可分析的数学矩阵,代入集成学习模型进行模型训练;
[0013]所述模型训练包括步骤,根据训练信息构建第一分析模型;
[0014] 将测试信息代入分析模型,对所述第一分析模型的运行效果进行评估,得到评估 值,根据评估值调整第一分析模型中各算法的训练信息分配权重得到新的分析模型;
[0015] 将测试信息代入分析模型,对新的分析模型的运行效果进行评估,得到新的评估 值,若所述新的评估值未收敛,则根据新的评估值再次调整新的分析模型中各算法的训练 信息分配权重得到新的分析模型,再次进行评估判断;若新的评估值收敛,中止判断,新的 分析模型作为优选分析模型;
[0016] 将优选模型部署应用,对目标信息进行识别分析。
[0017] 优选地,将素材信息分为训练信息和测试信息后还包括步骤,将待识别素材额外 添加到测试信息中。
[0018] 具体地,所述目标信息或素材信息包括噪音素材和待识别素材,在目标信息中,噪 音素材与待识别素材的比值大于50。
[0019] 具体地,所述第一分析模型包括SVM、kNN、multinomial_nb、Bernoulli_nb、 NearestCentro id、Ridge算法中的至少两种。
[0020] 一种海量文本中低占比信息识别装置,包括素材处理模块、模型构建模块、评估判 断模块、模型应用模块,
[0021] 所述素材处理模块用于将素材信息分为训练信息和测试信息,将所述素材信息通 过特征选择、向量化处理转化成可分析的数学矩阵,代入集成学习模型进行模型训练;
[0022] 所述模型构建模块用于根据训练信息构建第一分析模型;
[0023] 所述评估判断模块用于将测试信息代入分析模型,对所述第一分析模型的运行效 果进行评估,得到评估值,所述模型构建模块还用于根据评估值调整第一分析模型中各算 法的训练信息分配权重得到新的分析模型;
[0024] 所述评估判断模块还用于将测试信息代入分析模型,对新的分析模型的运行效果 进行评估,得到新的评估值;
[0025] 所述模型构建模块还用于在新的评估值未收敛时,则根据新的评估值再次调整新 的分析模型中各算法的训练信息分配权重得到新的分析模型,使能评估判断模块再次进 行评估判断;还用于在新的评估值收敛时,将新的分析模型作为优选分析模型;
[0026] 所述模型应用模块用于将优选模型部署应用,对目标信息进行识别分析。
[0027]优选地,所述素材处理模块还用于将待识别素材额外添加到测试信息中。
[0028] 具体地,所述目标信息或素材信息包括噪音素材和待识别素材,在目标信息中,噪 音素材与待识别素材的比值大于50。
[0029] 具体地,所述第一分析模型包括SVM、kNN、multinomial_nb、Bernoulli_nb、 NearestCentro id、Ridge算法中的至少两种。
[0030]其中,所述文本包括文字、图片、网页等多种格式实例,都适用本方法所阐述的方 案。区别于现有技术,上述技术方案通过两方面优化改进,分别是采用集成分析方法替代单 个分析算法,以及针对模型训练采用的"过采样"技术,能够很好地减小分析过程的误判率 和漏判率,使得互联网负面舆情自动分析效果得到很大提升。
【附图说明】
[0031 ]图1为本发明【背景技术】所述的互联网舆情示意图;
[0032]图2为本发明【具体实施方式】所述的负面舆情分析流程图;
[0033]图3为本发明【具体实施方式】所述的改进负面舆情分析流程图;
[0034] 图4为本发明【具体实施方式】所述的低占比信息识别方法流程图;
[0035] 图5为本发明【具体实施方式】所述的低占比信息识别装置模块图; 图6为本发明【具体实施方式】所述的互联网负面舆情分析的系统。
[0036] 附图标记说明:
[0037] 500、素材处理模块;
[0038] 5〇2、模型构建模块;
[0039] 504、评估判断模块;
[0040] 506、模型应用模块。
【具体实施方式】
[0041]为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实 施例并配合附图详予说明。
[0042]这里请先看图2,在图2所示的某些实施例中,是一种应用机器学习进行舆情负面 分析的基本流程,其中,所述舆情为舆论情报的示意,包括文字、图片、网页等多种格式实 例。
[0043] 流程说明如下:
[0044] 1)数据准备:从历史互联网舆情数据中,通过人工标注,形成"正面与中立"舆情数 据集,以及"负面舆情"数据集。
[0045] 2)文本特征化:这里可以结合图4,为一种低占比信息识别方法流程示意图,该步 骤相当于步骤S400,将素材信息进行处理:将所有舆情文本进行中文分词、特征选择以及向 量化处
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1