理(均采用成熟技术),将所有舆情文本转变成可分析的数学矩阵;而后,将数据拆分 成"训练集"(占80%)和"测试集"(占20%)两份数据集,前者用于训练模型,后者用于测试 模型的效果。
[0046] 3)模型训练及模型评估:每一次选择一种成熟的机器学习算法(如SVM、Native-BayeS、Ridge等),基于训练集数据,"训练"对应的模型(比如SVM模型);而后,将训练出的各 模型利用测试集进行评估,从而获得各模型的效果指标(通常用正确率、召回率两个指标进 行评估)。
[0047] 4)部署应用。将模型评估步骤中表现最好的模型,部署到生产环境中,用于对新的 舆情数据进行情感分析。
[0048] 在图3所示的进一步的实施例中,在"模型训练"和"模型评估"阶段做了两个明显 改进,使之更适合应用于负面舆情分析场景。
[0049] 1)第一个改进是引入"集成学习"方法。在模型训练阶段,不是使用"一种算法",而 是联合使用多种成熟的机器学习算法,组合构建"集成学习"算法,解决前述单一算法在"负 面舆情占比很低"场景下漏判率、误判率高的问题。
[0050] 所谓"集成学习",是指基于不同的分析算法,通过训练多个分析模型,然后把这些 分类模型组合起来,以达到更好的预测性能。本专利验证了多种有监督分析算法,包括: SVM、kNN、multinomial-nb、Bernoulli-nb、NearestCentroid、Ridge〇
[0051] 这里说明采用了集成学习的方法流程:
[0052] a.准备训练数据。将训练数据集按权重比例拆分,分配给不同算法(初始权重为分 配给每个算法相同的训练数据。比如5个算法参与评估,则各分配20%)。
[0053] b.构建分析模型。采用准备好的算法,基于训练数据集,构建对应的分析模型。 [0054] c.评估分析模型。基于测试数据集,对每一个分析模型的运行效果进行评估,得到 评估值。
[0055] d.调整训练数据权重,重新运算。根据各分析模型的评估值,调整训练数据集的分 配权重(运行效果越好的算法,权重对应越高,分配的训练数据越多),重新返回步骤2执行。 直到步骤c的结果收敛(即多次分析结果的评估值趋于稳定,不再变化)。从而,获得每一个 分析模型的权重。
[0056] e .组合形成"集成分析算法"。按照上述收敛时的每一个分析模型权重,构建集成 分析模型一一对一份数据进行分析时,集成模型中的每一个分析模型都参与分析、得到结 果。最终的分析结果,按照集成学习模型各算法的权重确定。
[0057]在如图4所示的具体的实施例中,综合了上述某些实施例的优势,介绍一种低占比 信息识别方法,包括如下步骤,步骤S400,将素材信息分为训练信息和测试信息,将所述素 材信息通过特征选择、向量化处理转化成可分析的数学矩阵,代入集成学习模型进行模型 训练;
[0058]所述模型训练包括步骤S402,根据训练信息构建第一分析模型;
[0059]还进行步骤S404将测试信息代入分析模型,对所述第一分析模型的运行效果进行 评估,得到评估值,根据评估值调整第一分析模型中各算法的训练信息分配权重得到新的 分析模型;
[0060]再继续步骤S406,将测试信息代入分析模型,对新的分析模型的运行效果进行评 估,得到新的评估值,若所述新的评估值未收敛,则根据新的评估值再次调整新的分析模型 中各算法的训练信息分配权重得到新的分析模型,再次进行评估判断;若新的评估值收敛, 中止判断,进行步骤S408,将根据收敛的评估值构建的新的分析模型作为优选分析模型; [0061 ]最后将优选模型部署应用,对目标信息进行识别分析。所述目标信息或素材信息 包括噪音素材和待识别素材,在目标信息中,噪音素材与待识别素材的比值大于50,所述素 材的量纲可以为字数、信息条数、页面数等等。这里目标信息以互联网上的舆情信息作为例 子,一般情况下负面舆情的条数仅占二百分之一。大部分的负面舆情,即待识别素材湮没在 了互联网的信息洪流中,这些正面与中立的舆情数量过于庞大,在本实施例中被视为噪音 素材。通过上述方法,集成多种算法建立分析模型,提高了大数据大信息量中低占比的待识 别素材的识别率。有效达到了大数据中识别少量待识别信息的效果,具体可参照下文的实 验例。
[0062]在另一些优选的实施例中,将素材信息分为训练信息和测试信息后还包括步骤, 将待识别素材额外添加到测试信息中。这样的改进是引入"过采样"的手段。具体地,以互联 网负面舆情为例,独立准备一些历史负面舆情数据,在模式评估和部署应用阶段,将上述负 面舆情额外加入到测试信息中,人为提高所述测试信息中负面舆情的占比,再将人为改变 了的测试信息代入到分析模型的评估、重构建过程中,此过程称之为"过采样"技术。该技术 经实验,也确实有效地达到了提高低占比信息识别效率的效果。
[0063] 实验例1:
[0064] 验证数据。
[0065]基于某大型央企的历史舆情采集数据,筛选出以下两份数据,用于后续验证使用。 [0066]数据集A:历史负面舆情,数量4406
[0067]数据集B:2015年7月份该央企的相关舆情。数量为24182,其中259篇为负面舆情。 [0068]验证方法
[0069]将"数据集B"中的数据中的非负面舆情和负面舆情按照8: 2进行随机切分,80 %作 为训练数据集C,20%作为测试数据集D。在实验过程中,进行如下设置:
[0070] 过采用应用。将数据集A中一定数目的负面舆情添加进C中。
[0071] 实验过程中采用了多个模型,如SVm,knn等,并评测了这些模型的集成分析模 型一一表格中使用"集成学习"作为其对应的分析模型名称。
[0072] 所有实验均重复20次,所以以下所有的测试结果均为平均结果 [0073]实验结果
[0074]
[0075] 如表格所示,分析结果采用业界通用的准确率和召回率指标度量,两个指标值均 为越大越好。上述实验结果说明:第一,采用过拟合处理后,同一种分析模型的效果更好,并 且额外添加的负面舆情量越多,效果越好;第二,集成学习的分析效果要好于单个算法,如 svm和Ridge。这与实验预期是相符的,也证明了本发明方法的有效性。
[0076] 图5所示的实施例中,展示了一种海量文本中低占比信息识别装置,包括素材处理 模块500、模型构建模块502、评估判断模块504、模型应用模块506,
[0077]所述素材处理模块500用于将素材信息分为训练信息和测试信息,将所述素材信 息通过特征选择、向量化处理转化成可分析的数学矩阵,代入集成学习模型进行模型训练; [0078]所述模型构建模块502用于根据训练信息构建第一分析模型;
[0079] 所述评估判断模块504用于将测试信息代入分析模型,对所述第一分析模型的运 行效果进行评估,得到评估值,所述模型构建模块502还用于根据评估值调整第一分析模型 中各算法的训练信息分配权重得到新的分析模型;
[0080] 所述评估判断模块504还用于将测试信息代入分析模型,对新的分析模型的运行 效果进行评估,得到新的评估值;
[0081] 所述模型构建模块502还用于在新的评估值未收敛时,则根据新的评估值再次调 整新的分析模型中各算法的训练信息分配权重得到新的分析模型,使能评估判断模块再次 进行评估判断;还用于在新的评估值收敛时,将新的分析模型作为优选分析模型;
[0082] 所述模型应用模块506用于将优选模型部署应用,对目标信息进行识别分析。上述 装置有效达到了低占比信息识别的效果
[0083] 优选地实施例中,所述素材处理模块500还用于将待识别素材额外添加到测试信 息中。通过上述模块设置,更好地解决了大数据低占比信息的识别问题。
[0084] 具体地,所述目标信息或素材信息包括噪音素材和待识别素材,在目标信息中,噪 音素材与待识别素材的比值大于50。
[0085] 具体地,所述第一分析模型包括SVM、kNN、multinomial_nb、Bernoulli_nb、 NearestCentroid、Ridge算法中的至少两种。本发明装置能够在大数据背景下建立分析模 型,分析识别目标信息中占比很低的待识别素材。
[0086]图6提出一种基于机器学习算