一种用户反馈信息的可视化处理方法及系统的利记博彩app
【专利摘要】本发明公开了一种用户反馈信息的可视化处理方法及系统,所述方法包括:从服务器数据库中获取用户反馈信息数据,对所述反馈信息数据进行预处理;根据预处理结果进行主题分析并构建词云可视化处理,获取可视化词云;根据所述反馈信息对所述词云可视化进行构建快速倒排序索引处理,获取所述反馈信息的倒排序索引;根据所述倒排序索引对所述用户点击主题对应关键词的所述可视化词云进行显示;在本发明实施例中,通过可视化词云快速获取用户反馈信息,提高平台用户使用体验感。
【专利说明】
一种用户反馈信息的可视化处理方法及系统
技术领域
[0001]本发明涉及数据处理技术领域,尤其涉及一种用户反馈信息的可视化处理方法及系统。
【背景技术】
[0002]随着移动互联网技术的快速发展,手机终端的智能化的不断提升,越来越多的用户通过安装各种移动应用程序,极大地方便了人们的日常生活,而各种中小型互联网企业也有着其自己的平台和相应的移动端APP应用。
[0003]随着互联网平台以及移动端APP用户的不断增长,大量的用户在使用过程不免遇到各种各样的问题,因而大部分互联网平台以及APP应用都会收集相应的用户反馈信息,比如热门手游平台,随着用户玩家反馈的数据量的快速大量增长,这给一个企业进行平台用户反馈问题的有效及时查看带来了一定的难度,而依靠运营人工的方式往往效率比较低,而且反馈信息按时间序列是比较杂乱的,且是每天几万甚至几十万的增长,但其实用户反馈的问题主题可以划分为少数的几类,因而提出一种相应的快速有效的分析用户反馈的方法非常重要。
【发明内容】
[0004]本发明的目的在于克服现有技术的不足,本发明提供了一种用户反馈信息的可视化处理方法及系统,通过可视化词云快速获取用户反馈信息,提高用户使用体验感。
[0005]为了解决上述技术问题,本发明实施例提供了一种用户反馈信息的可视化处理方法,所述方法包括:
[0006]从服务器数据库中获取用户反馈信息数据,对所述反馈信息数据进行预处理;
[0007]根据预处理结果进行构建词云可视化处理,获取可视化词云;
[0008]根据所述反馈信息对所述可视化词云进行构建快速倒排序索引处理,获取所述反馈信息的倒排序索引;
[0009]根据所述倒排序索引对所述用户点击主题对应关键词的所述可视化词云进行显不O
[0010]优选地,所述对所述反馈信息数据进行预处理,包括:
[0011 ]对所述反馈信息进行和中文提取处理,获取文本信息;
[0012]对所述文本信息进行分词处理并根据停用词表去除停用词,获取所述文本信息的关键词。
[0013]优选地,所述根据预处理结果进行构建词云可视化处理,包括:
[0014]根据所述预处理结果进行LDA主题分析,获取主题分析结果;
[0015]根据所述预处理结果对所述反馈信息进行情感分类处理,获取情感分类结果;
[0016]根据所述分析结果和所述情感分类结果进行词云可视化处理,获取可视化词云。
[0017]优选地,所述根据所述预处理结果进行LDA主题分析,包括:
[0018]对文本信息的关键词进行词频统计出来,获取统计结果;
[0019]为每个关键词随机指定一个主题,作为初始主题;
[0020]对所述初始主题进行处理,获取主题-关键词的LDA分析矩阵。
[0021]优选地,所述根据所述预处理结果对所述反馈信息进行情感分类处理,包括:
[0022]根据所述预处理结果将反馈信息划分为正反馈、负反馈和无意义三类的感情倾向;
[0023]对反馈信息进行遍历处理,统计反馈信息中每个词的所属分类的概率;
[0024]根据反馈信息中每个词的所属分类的概率大小,获取所述反馈信息的情感倾向。
[0025]优选地,所述根据所述分析结果和所述分类结果进行词云可视化处理,包括:
[0026]根据所述分析结果不断调整主题个数,确定主题数目;
[0027]获取每个确定主题对应的关键词,对所述关键词进行词频排序;根据排序顺序确定关键词的大小;
[0028]根据所述关键词的情感分类确定所述关键词的颜色;
[0029]根据用户焦点对关键字进行动态位置调整,获取可视化词云。
[0030]优选地,所述根据所述反馈信息对所述可视化词云进行构建快速倒排序索引处理,包括:
[0031 ]设计一个字典,采用所述字典存放所述反馈信息对应的关键词;
[0032]扫描用户反馈数据列表,逐条访问所述用户的反馈信息记录;
[0033]根据所述可视化词云与所述反馈信息记录创建倒排序索引表,获取所述反馈信息的倒排序索引;
[0034]优选地,所述根据所述倒排序索引对所述用户点击主题对应关键词的所述可视化词云进行显示,包括:
[0035]根据所述可视化词云获取主题-关键词分析矩阵数据;
[0036]根据所述主题-关键词分析矩阵数据,获取所述每个主题使用词频最高的K个关键词进行主题描述。
[0037]对用户点击的相应关键词进行后台快速检索倒排序索引,快速查找并读取按时间排序显示。
[0038]另外,本发明实施例还提供了一种用户反馈信息的可视化处理系统,所述系统包括
[0039]预处理模块:用于从服务器数据库中获取用户反馈信息数据,对所述反馈信息数据进行预处理;
[0040]可视化处理模块:用于根据预处理结果进行构建词云可视化处理,获取可视化词云;
[0041 ]倒排序索引模块:用于根据所述反馈信息对所述可视化词云进行构建快速倒排序索引处理,获取所述反馈信息的倒排序索引;
[0042]显示模块:用于根据所述倒排序索引对所述用户点击主题对应关键词的所述可视化词云进行显示。
[0043]优选地,所述可视化处理模块包括:
[0044]LDA分析单元:用于根据所述预处理结果进行LDA主题分析,获取分析结果;
[0045]情感分类单元:用于根据所述预处理结果对所述反馈信息进行情感分类处理,获取情感分类结果;
[0046]可视化处理单元:用于根据所述分析结果和所述情感分类结果进行词云可视化处理,获取可视化词云。
[0047]在本发明实施例中,通过对后台数据库中的数据信息进行可视化处理,并对该可视化处理后回去的可视化词云与数据信息建立倒排序索引,在用户进行检索时,通过输入关键词倒排序出对应的可视化词云,用户可快速获取反馈信息,提高用户使用体验感。
【附图说明】
[0048]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0049]图1是本发明实施例的用户反馈信息的可视化处理方法的流程示意图;
[0050]图2是本发明实施例的构建词云可视化处理的流程示意图;
[0051]图3是本发明实施例的用户输入关键词后的可视化词云效果示意图;
[0052]图4是本发明实施例的用户反馈信息的可视化处理系统的结构组成示意图。
【具体实施方式】
[0053]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0054]图1是本发明实施例的用户反馈信息的可视化处理方法的流程示意图,如图1所示,该方法包括:
[0055]Sll:从服务器数据库中获取用户反馈信息数据,对该反馈信息数据进行预处理;
[0056]S12:根据预处理结果进行构建词云可视化处理,获取可视化词云;
[0057]S13:根据该反馈信息对该可视化词云进行构建快速倒排序索引处理,获取该反馈信息的倒排序索引;
[0058]S14:根据该倒排序索引对该用户点击主题对应关键词的可视化词云进行显示。
[0059]对SI I作进一步说明:
[0060]采用数据爬虫处理的方式对服务器数据库中的数据进行爬取,获取用户的反馈信息数据;对该反馈信息近杂质去除和中文提取处理,获取文本信息;对该文本信息进行分词处理,获取该文本信息的关键词。
[0061]进一步的,采用数据爬虫对对服务器上的数据库进行数据爬取,获取用户的反馈信息数据,采用一个标识符标志一个用户的一条反馈信息,对该反馈信息进行杂质去除处理,是去除反馈信息中的图像等非文字信息,采用中文的UTF-S(Unicode)编码范围为/u4e00-/u9f a5对反馈彳目息进行中文提取处理,提取反馈?目息的文本?目息。
[0062]对文本信息进行分词处理,获取该文本信息的关键词;加载互联网字典和加载互联网停用字典;从字典中构建句子的DAG(有向无环图);对字典中的未收录词汇,使用HMM模型的Viterbi算法进行分词;已收录词汇和未收录词汇全部分词完毕后,使用动态规划法寻找DAG(有向无环图)的最大概率路径,从而实现分词处理,获取文本信息的关键词。
[0063]对S12作进一步说明:
[0064]根据预处理结果进行LDA主题分析获取分析结果和根据预处理结果对该反馈信息进行情感分类处理,获取情感分类结果;最后根据该分析结果和该情感分类结果进行词云可视化处理,获取可视化词云。
[0065]进一步的,图2是本发明实施例的构建词云可视化处理的流程示意图,如图2所示,该步骤的流程包括:
[0066]S121:根据该预处理结果进行LDA主题分析,获取分析结果;
[0067]S122:根据该预处理结果对该反馈信息进行情感分类处理,获取情感分类结果;
[0068]S123:根据该分析结果和该情感分类结果进行词云可视化处理,获取可视化词云。
[0069]对S121作进一步说明:
[0070]对文本信息的关键词进行词频统计,获取统计结果;为每个关键词随机设定一个主题,作为初始主题;对该初始主题进行处理,获取主题-关键词的LDA分析矩阵。
[0071]进一步的,对预处理获取到的文本信息集合中的每篇文本信息d,获取每篇文本信息d的关键词集合W= {W1,W2,...,Wxl ;对每篇文本信息d中的关键词做词频统计,得到p(Wid);为关键词集合W中的每个关键词Wi,随机指定一个主题t,作为初始主题;通过GibbsSampl ing公式,重新采样每个关键词Wi的所属主题t,并在关键词中更新直到GibbsSampl ing收敛;收敛以后得到“主题-关键词”的概率矩阵,这个就是LDA矩阵,而文档-主题的概率矩阵也是能得到的,统计后,就能能得到文档-主题的概率分布;确定LDA主题分析结果O
[0072]对S122作进一步说明:
[0073]根据该预处理结果将反馈信息划分为正反馈、负反馈和无意义三类的感情倾向;对反馈信息进行遍历处理,统计反馈信息中每个词的所属分类的概率;根据反馈信息中每个词的所属分类的概率大小,获取该反馈信息的情感倾向。
[0074]进一步的,加载预处理结果,对这些预处理结果中的平台已有标记的用户反馈信息获取训练集,对新的每条反馈信息根据训练集划分为正反馈、负反馈和无意义三类的感情倾向;把每条用户反馈信息当作一个文本信息,遍历完所有的已标记的用户反馈信息集合后可以得到统计的每个词属于每个类的概率P(Wi I category);对于给定的一条新用户反馈信息,该用户反馈信息是否是正向反馈(赞扬)或是负反馈(反映问题)或是无意义的,可根据贝叶斯定理来计算该条用户反馈所属的某个分类的概率即P(Category I Document) =P(Document | Category)*P(Category)/P(Document),P(Document | Category)即是该条反馈信息中各个关键词的概率P(wi I category)的乘积,P(Category)是用户反馈信息属于某个分类的概率,就是该类反馈总数除以反馈总数,P(Document)可以看作一个常数;根据每条用户反馈信息所属各分类的概率大小即可得到该条用户反馈信息的情感倾向,完成情感分类并记录至数据库。
[0075]对S123作进一步说明:
[0076]根据该分析结果和该情感分类结果进行词云可视化处理,获取可视化词云;根据该分析结果不断调整主题个数,确定主题数目;获取每个确定主题对应的关键词,对该关键词进行词频排序;根据排序顺序确定关键词的大小;根据排序顺序确定关键词的大小和所述情感分类结果,获取该关键词大小和颜色分类;根据用户焦点对关键字进行动态位置调整,获取可视化词云。
[0077]进一步的,根据该分析结果不断的调整主题的个数,通过实际效果来确定最终的主题数目;在确定最终的主题数目时,再确定这些确定主题数目中的每个主题对应的关键词,对这些关键词进行排序处理,其排序原理是根据上述计算的词频的大小进行的排序,根据排序的顺序结果来确定关键词的大小;根据该关键词的情感分类确定该关键词的颜色,颜色可以有三原色组合而成,颜色越深暗表示该关键词就越负反馈,颜色越淡表示关键词越无意义,颜色越鲜艳表示关键词越正反馈;根据用户焦点对关键字进行动态位置调整,获取可视化词云。
[0078]对S13作进一步说明:
[0079]设计一个字典,采用该字典存放所述反馈信息对应的关键词;扫描用户反馈数据列表,逐条访问该用户的反馈信息记录;根据该可视化词云与该反馈信息记录创建倒排序索引表,获取该反馈信息的倒排序索引。
[0080]进一步的,读取用户预处理后的反馈信息,设计一个字典存放整个用户反馈信息所有关键词的唯一关键词集合;重新扫描一遍用户反馈信息的数据列表,逐条访问用户反馈信息的记录;根据该可视化词云与该反馈信息记录创建倒排索引表,每个词作为表的一条记录,同时后面记录该词出现在了哪个用户的哪条记录,使用用户标识号来唯一标识一个用户,使用该记录id来标识该条用户唯一一条反馈信息,以json方式存放,扫描过程依次扩充整条记录,从而获取反馈信息的倒排序索引。
[0081 ] 对S14作进一步说明:
[0082]根据该倒排序索引对该用户点击主题对应关键词的该可视化词云进行显示。
[0083]进一步的,根据该可视化词云获取主题-关键词分析矩阵数据;根据该主题-关键词分析矩阵数据,获取该主题使用词频最高的K个关键词进行主题描述。对用户点击的相应关键词进行后台快速检索倒排序索引,快速查找并读取按时间排序显示。
[0084]图3是本发明实施例的用户输入关键词后的可视化词云效果示意图,如图3所示,用户在输入检索主题后,根据该检索主题获取其对应的关键词的可视化词云和该关键词的出处。
[0085]图4是本发明实施例的用户反馈信息的可视化处理系统的结构组成示意图,如图4所示,该系统包括:
[0086]预处理模块11:用于从服务器数据库中获取用户反馈信息数据,对该反馈信息数据进行预处理;
[0087]可视化处理模块12:用于根据预处理结果进行主题分析并构建每个主题的词云可视化处理,获取可视化词云;
[0088]倒排序索引模块13:用于根据该反馈信息对该可视化词云进行构建快速倒排序索引处理,获取该反馈信息的倒排序索引;
[0089]显示模块14:用于根据倒排序索引对该用户点击主题对应关键词的该可视化词云进行显示。
[0090]优选地,该预处理模块11包括:
[0091]文字处理单元:用于对该反馈信息进行杂质去除和中文提取处理,获取文本信息;
[0092]分词单元:用于对文本信息进行分词处理,获取文本信息的关键词。
[0093]优选地,该可视化处理模块12包括:
[0094]LDA分析单元:用于根据该预处理结果进行LDA主题分析,获取分析结果;
[0095]情感分类单元:用于根据该预处理结果对该反馈信息进行情感分类处理,获取情感分类结果;
[0096]可视化处理单元:用于根据该分析结果和该情感分类结果进行词云可视化处理,获取可视化词云。
[0097]优选地,该LDA分析单元包括:
[0098]统计子单元:用于对文本信息的关键词进行词频统计出来,获取统计结果;
[0099]随机分配子单元:用于为每个关键词随机指定一个主题,作为初始主题;
[0100]处理子单元:用于对该初始主题进行处理,获取主题-关键词的LDA分析矩阵。
[0101]优选地,该情感分类单元包括:
[0102]情感划分子单元:用于根据该预处理结果将反馈信息划分为正反馈、负反馈和无意义三类的感情倾向;
[0103]遍历子单元:用于对反馈信息进行遍历处理,统计反馈信息中每个词的所属分类的概率;
[0104]分类子单元:用于根据反馈信息中每个词的所属分类的概率大小,获取该反馈信息的情感倾向。
[0105]优选地,该可视化处理单元包括:
[0106]调整子单元:用于根据该分析结果不断调整主题个数,确定主题数目;
[0107]大小获取单元:用于获取每个确定主题对应的关键词,对关键词进行词频排序;根据排序顺序确定关键词的大小;
[0108]颜色确定单元:用于根据关键词的情感分类确定关键词的颜色;
[0109]可视化词云获取单元:用于根据用户焦点移动对关键字进行动态位置调整,获取可视化词云。
[0110]优选地,该倒排序索引模块13包括:
[0111]字典设计单元:用于设计一个字典,采用该字典存放该反馈信息对应的关键词;
[0112]扫描用户反馈数据列表,逐条访问该用户的反馈信息记录;
[0113]根据可视化词云与该反馈信息记录创建倒排序索引表,获取该反馈信息的倒排序索引;
[0114]优选地,该显示模块14包括:
[0115]信息获取单元:用于根据可视化词云获取主题-关键词分析矩阵数据;
[0116]主题描述单元:用于根据该主题-关键词分析矩阵数据,获取每个主题使用其词频最尚的K个关键词进彳丁主题描述。
[0117]显示单元:用于对用户点击的相应关键词进行后台快速检索倒排序索引,快速查找并读取按时间排序显示。
[0118]具体地,本发明实施例的系统相关功能模块的工作原理可参见方法实施例的相关描述,这里不再赘述。
[0119]在本发明实施例中,通过对后台数据库中的数据信息进行可视化处理,并对该可视化处理后回去的可视化词云与数据信息建立倒排序索引,在用户进行检索时,通过输入关键词倒排序出对应的可视化词云,用户可快速获取反馈信息,提高用户使用体验感。
[0120]本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(R0M,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
[0121]另外,以上对本发明实施例所提供的一种用户反馈信息的可视化处理方法及系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在【具体实施方式】及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
【主权项】
1.一种用户反馈信息的可视化处理方法,其特征在于,所述方法包括: 从服务器数据库中获取用户反馈信息数据,对所述反馈信息数据进行预处理; 根据预处理结果进行构建主题词云可视化处理,获取可视化词云; 根据所述反馈信息对所述可视化词云进行主题分析并构建快速倒排序索引处理,获取所述反馈信息的倒排序索引; 根据所述倒排序索引对所述用户点击主题对应关键词的所述可视化词云进行显示。2.根据权利要求1所述的可视化处理方法,其特征在于,所述对所述反馈信息数据进行预处理,包括: 对所述反馈信息进行杂质去除和中文提取处理,获取文本信息; 对所述文本信息进行分词处理,获取所述文本信息的关键词。3.根据权利要求1所述的可视化处理方法,其特征在于,所述根据预处理结果进行构建词云可视化处理,包括: 根据所述预处理结果进行LDA主题分析,获取分析结果; 根据所述预处理结果对所述反馈信息进行情感分类处理,获取情感分类结果; 根据所述分析结果和所述情感分类结果进行词云可视化处理,获取可视化词云。4.根据权利要求3所述的可视化处理方法,其特征在于,所述根据所述预处理结果进行LDA主题分析,包括: 对文本信息的关键词进行词频统计,获取统计结果; 为每个关键词随机指定一个主题,作为初始主题; 对所述初始主题进行处理,获取主题-关键词的LDA分析矩阵。5.根据权利要求3所述的可视化处理方法,其特征在于,所述根据所述预处理结果对所述反馈信息进行情感分类处理,包括: 根据所述预处理结果将反馈信息划分为正反馈、负反馈和无意义三类的感情倾向; 对反馈信息进行遍历处理,统计反馈信息中每个词的所属分类的概率; 根据反馈信息中每个词的所属分类的概率大小,获取所述反馈信息的情感倾向。6.根据权利要求3所述的可视化处理方法,其特征在于,所述根据所述分析结果和所述分类结果进行词云可视化处理,包括: 根据所述分析结果不断调整主题个数,确定主题数目; 获取每个确定主题对应的关键词,对所述关键词进行词频排序;根据排序顺序确定关键词的大小; 根据所述关键词的情感分类确定所述关键词的颜色; 根据用户焦点对关键字进行动态位置调整,获取可视化词云。7.根据权利要求1所述的可视化处理方法,其特征在于,所述根据所述反馈信息对所述可视化词云进行构建快速倒排序索引处理,包括: 设计一个字典,采用所述字典存放所述反馈信息对应的关键词; 扫描用户反馈数据列表,逐条访问所述用户的反馈信息记录; 根据所述可视化词云与所述反馈信息记录创建倒排序索引表,获取所述反馈信息的倒排序索引。8.根据权利要求1所述的可视化处理方法,其特征在于,所述根据所述倒排序索引对所述用户点击主题对应关键词的所述可视化词云进行显示,包括: 根据所述可视化词云获取主题-关键词分析矩阵数据; 根据所述主题-关键词分析矩阵数据,获取所述主题使用词频最高的K个关键词进行主题描述。 对用户点击的相应关键词进行后台快速检索倒排序索引,快速查找并读取按时间排序显不O9.一种用户反馈信息的可视化处理系统,其特征在于,所述系统包括 预处理模块:用于从服务器数据库中获取用户反馈信息数据,对所述反馈信息数据进行预处理; 可视化处理模块:用于根据预处理结果进行主题分析并构建词云可视化处理,获取可视化词云; 倒排序索引模块:用于根据所述反馈信息对所述可视化词云进行构建快速倒排序索引处理,获取所述反馈信息的倒排序索引; 显示模块:用于根据所述倒排序索引对所述用户点击主题对应关键词的所述可视化词云进行显示。10.根据权利要求9所述的可视化处理系统,其特征在于,所述可视化处理模块包括: LDA分析单元:用于根据所述预处理结果进行LDA主题分析,获取分析结果; 情感分类单元:用于根据所述预处理结果对所述反馈信息进行情感分类处理,获取情感分类结果; 可视化处理单元:用于根据所述分析结果和所述情感分类结果进行词云可视化处理,获取可视化词云。
【文档编号】G06F17/30GK105930416SQ201610242427
【公开日】2016年9月7日
【申请日】2016年4月19日
【发明人】谢功海, 林谋广, 刘冶, 周凡
【申请人】中山大学