法进行综合改进、适用于互联网负面舆情分析的系 统。系统主要包含以下模块:
[0087] 1.互联网舆情采集模块。通过网络爬虫技术,对指定的互联网站点进行数据采集。
[0088] 2.互联网舆情分析模块。基于机器学习等文本分析技术,对采集到的互联网舆情 文本进行分析,识别负面舆情。
[0089] 3.基础设施。用于支持海量数据的临时存储与分布式计算。其中分布式计算采用 开源软件Apache Spark。
[0090] 4.数据存储模块。对分析的结果(识别出的负面舆情信息)进行持久化存储。数据 库采用的是开源软件MongoDB。
[0091] 5.可视化展示。基于Web界面,展示负面舆情信息、统计结果等。
[0092]其中,上述的互联网舆情采集、基础设施、数据存储、可视化展示均采用比较成熟 的技术构建。该系统针对基于机器学习算法的互联网负面舆情分析方法进行了优化改进, 规避了现有方案存在的相关问题,减少负面舆情自动分析的误判率和漏判率,从而较好地 解决了海量互联网舆情负面倾向性分析的问题。
[0093]需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实 体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存 在任何这种实际的关系或者顺序。而且,术语"包括"、"包含"或者其任何其他变体意在涵盖 非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些 要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终 端设备所固有的要素。在没有更多限制的情况下,由语句"包括……"或"包含……"限定的 要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此 外,在本文中,"大于"、"小于"、"超过"等理解为不包括本数;"以上"、"以下"、"以内"等理解 为包括本数。
[0094] 本领域内的技术人员应明白,上述各实施例可提供为方法、装置、或计算机程序产 品。这些实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例 的形式。上述各实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来 完成,所述的程序可以存储于计算机设备可读取的存储介质中,用于执行上述各实施例方 法所述的全部或部分步骤。所述计算机设备,包括但不限于:个人计算机、服务器、通用计算 机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端、智能家居设备、穿戴式 智能设备、车载智能设备等;所述的存储介质,包括但不限于:RAM、R0M、磁碟、磁带、光盘、闪 存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。
[0095] 上述各实施例是参照根据实施例所述的方法、设备(系统)、和计算机程序产品的 流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每 一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机 程序指令到计算机设备的处理器以产生一个机器,使得通过计算机设备的处理器执行的指 令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的 功能的装置。
[0096] 这些计算机程序指令也可存储在能引导计算机设备以特定方式工作的计算机设 备可读存储器中,使得存储在该计算机设备可读存储器中的指令产生包括指令装置的制造 品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指 定的功能。
[0097] 这些计算机程序指令也可装载到计算机设备上,使得在计算机设备上执行一系列 操作步骤以产生计算机实现的处理,从而在计算机设备上执行的指令提供用于实现在流程 图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0098]尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创 造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例, 并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构 或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利 保护范围之内。
【主权项】
1. 一种海量文本中低占比信息识别方法,其特征在于,包括如下步骤,将素材信息分为 训练信息和测试信息,将所述素材信息通过特征选择、向量化处理转化成可分析的数学矩 阵,代入集成学习模型进行模型训练; 所述模型训练包括步骤,根据训练信息构建第一分析模型; 将测试信息代入第一分析模型,对所述第一分析模型的运行效果进行评估,得到评估 值,根据评估值调整第一分析模型中各算法的训练信息分配权重得到新的分析模型; 将测试信息代入新的分析模型,对新的分析模型的运行效果进行评估,得到新的评估 值,若所述新的评估值未收敛,则根据新的评估值再次调整新的分析模型中各算法的训练 信息分配权重得到新的分析模型,再次进行评估判断;若新的评估值收敛,中止判断,新的 分析模型作为优选分析模型; 将优选模型部署应用,对目标信息进行识别分析。2. 根据权利要求1所述的海量文本中低占比信息识别方法,其特征在于,将素材信息分 为训练信息和测试信息后还包括步骤,将待识别素材额外添加到测试信息中。3. 根据权利要求1所述的海量文本中低占比信息识别方法,其特征在于,所述目标信息 或素材信息包括噪音素材和待识别素材,在目标信息中,噪音素材与待识别素材的比值大 于50。4. 根据权利要求1所述的海量文本中低占比信息识别方法,其特征在于,所述第一分析 模型包括 SVM、kNN、multinomial_nb、Bernoulli_nb、NearestCentroid、Ridge算法中的至少 两种。5. -种海量文本中低占比信息识别装置,其特征在于,包括素材处理模块、模型构建模 块、评估判断模块、模型应用模块, 所述素材处理模块用于将素材信息分为训练信息和测试信息,将所述素材信息通过特 征选择、向量化处理转化成可分析的数学矩阵,代入集成学习模型进行模型训练; 所述模型构建模块用于根据训练信息构建第一分析模型; 所述评估判断模块用于将测试信息代入第一分析模型,对所述第一分析模型的运行效 果进行评估,得到评估值,所述模型构建模块还用于根据评估值调整第一分析模型中各算 法的训练信息分配权重得到新的分析模型; 所述评估判断模块还用于将测试信息代入新的分析模型,对新的分析模型的运行效果 进行评估,得到新的评估值; 所述模型构建模块还用于在新的评估值未收敛时,则根据新的评估值再次调整新的分 析模型中各算法的训练信息分配权重得到新的分析模型,使能评估判断模块再次进行评估 判断;还用于在新的评估值收敛时,将新的分析模型作为优选分析模型; 所述模型应用模块用于将优选模型部署应用,对目标信息进行识别分析。6. 根据权利要求5所述的海量文本中低占比信息识别装置,其特征在于,所述素材处理 模块还用于将待识别素材额外添加到测试信息中。7. 根据权利要求5所述的海量文本中低占比信息识别方法,其特征在于,所述目标信息 或素材信息包括噪音素材和待识别素材,在目标信息中,噪音素材与待识别素材的比值大 于50。8. 根据权利要求5所述的海量文本中低占比信息识别方法,其特征在于,所述第一分析 模型包括 3¥]\1、1^顺、111111七;!_110111131_1113、861'1101111;!__1113、他3代8比61^1'〇1(1、1^(186算法中的至少 两种。
【专利摘要】一种海量文本中低占比信息识别方法及装置,其中方法包括如下步骤,将素材信息分为训练信息和测试信息,将所述素材信息通过特征选择、向量化处理转化成可分析的数学矩阵,代入集成学习模型进行模型训练;所述模型训练包括步骤,根据训练信息构建第一分析模型;将测试信息代入分析模型,对所述第一分析模型的运行效果进行评估,得到评估值,根据评估值调整第一分析模型中各算法的训练信息分配权重得到新的分析模型;本方法解决了大量数据中低占比的少量待识别信息的识别问题。
【IPC分类】G06F17/27, G06F17/30
【公开号】CN105653649
【申请号】
【发明人】倪时龙, 苏江文, 宋立华
【申请人】福建亿榕信息技术有限公司
【公开日】2016年6月8日
【申请日】2015年12月28日