一种基于主题建模的多粒度情感分析方法
【专利摘要】本发明公开了一种基于主题建模的多粒度情感分析方法,包括如下步骤:提取社交媒体文本数据库中所有数据的单词和单词特征;训练得到核心模型;根据用户的查询请求从社交媒体文本数据库中得到搜索结果;根据系统自动设定或用户指定的参数,确定主题建模中需要的主题数目和细粒度情感数目;随机地将某个主题和某个细粒度情感分配给每一个单词;计算所有单词所属主题和细粒度情感以及所查询文档表达粗粒度情感,并将结果反馈给用户。本发明具有的有益效果有:可对社交网络文本数据同时进行主题建模与多粒度情感分析;可在单词特征与单词所表达细粒度情感之间建立起关联度,为用户理解数据提供帮助。
【专利说明】一种基于主题建模的多粒度情感分析方法
【技术领域】
[0001] 本发明涉及用户情感分析,尤其涉及一种基于主题建模的多粒度情感分析方法。
【背景技术】
[0002] 目前,随着互联网架构、存储科技及其他有关技术的发展,各种各样的网络数据飞 速增长。这些数据除了给互联网用户更好的浏览体验和为多媒体检索应用提供了更多的样 本以外,也使得高效组织这些大规模数据成为了一种挑战。为了应对这一挑战,作为通过 "隐性主题"来聚类媒体数据的典型算法,非监督层次化贝叶斯模型(或称主题模型)被大 量使用,如LDA(隐狄利克雷分配,一种广泛的传统主题模型)及其扩展等。从2003年被提 出直至今日,LDA及其衍生模型已经作为多种主题建模应用的核心算法,被用于解决文档摘 要生成、跨数据集主题建模和文档主题演化等领域,并且在实际使用中发挥了良好的效果。 和传统的基于统计的一些文本归纳方法相比,主题模型在可观测的文档层和单词层间增加 了一个隐含的主题层,并认为文档包含有一个或若干多个主题,每个主题又是不同比例单 词的组合。这一新增加的主题隐含层能让用户更好地理解一篇文档所蕴含语义内容(相当 于为文档数据本身自动添加了诸如"体育"、"社会"等一个或多个类别标签),而且对海量数 据能通过主题进行表达而达到降维效果。
[0003] 在对海量互联网数据处理中,情感分析是随着社交网络的发展与网络用户生成数 据(User Generated Data,例如对电影或者电子产品的感想、对于新闻事件的观点与感受 等)飞速增多而新出现的研究方向。情感分析的基本任务是从用户生成的包含观点和意见 的文本数据中抽取出这些观点和意见,然后实现情感摘要生成、情感分类和情感词典构建 等等情感分析任务。将主题模型应用于情感分析后,能够同时挖掘出数据所包含的用户主 观感受(用户的情感)与客观描述事实(用户评论所涉及到的内容),因此是一种具有高可 行性与研究前景的应用方向。
[0004] 当前,通过主题建模方法进行用户情感分析的研究工作及应用还不丰富。已经被 提出的核心算法主要有:基于概率隐语义分析模型、将正面(positive)和负面(negative) 两种情感作为主题之外能够产生单词的多项分布的情感主题模型(Topic Sentiment Mixture,TSM);基于隐狄利克雷分配、抽取和聚合不同主题中表达情感的词组或语句的多 侧面情感模型(Multi-aspect Sentiment Model, MAS);以及同样基于隐狄利克雷分配、同 时挖掘数据中情感和主题分布的联合情感主题模型(Joint Sentiment-topic Model, JST) 等。需要指出的是,当前已有的绝大部分情感分析方法着眼于在"粗粒度"上对用户情感进 行分析,即认为用户生成数据中的每一个词都表达正面、负面或中立这三种粗粒度情感中 的一种。但是,实际中大部分用户生成数据尽管可在段落或文档层面进行粗粒度情感分析 与判别,但其中一些单词会表达细粒度情感(如"喜悦"、"感动"、"悲伤"等)。如何对用户 产生数据进行多粒度情感分析是当前情感分析研究领域和应用开发领域的难点与热点。
【发明内容】
[0005] 本发明的目的是克服现有技术的不足,提供一种基于主题建模的多粒度情感分析 方法。
[0006] 基于主题建模的多粒度情感分析方法包括如下步骤:
[0007] 1)提取社交媒体文本数据库中所有数据的单词和单词特征;
[0008] 2)根据系统自动设定或用户指定的参数,确定建模中所采用的主题数目和细粒度 情感数目;
[0009] 3)根据给定训练数据,通过Gibbs采样过程得到主题建模和细粒度情感建模的核 心模型;
[0010] 4)根据用户的查询请求从社交媒体数据库中搜索得到文本结果;
[0011] 5)通过Gibbs采样迭代确定每一个单词所属主题以及所属细粒度情感;
[0012] 6)通过嵴回归分类确定查询得到的每个文档中各段落表达的粗粒度情感并向用 户反馈;
[0013] 7)根据单词所属主题以及单词所表达细粒度情感向用户反馈各个主题和各个细 粒度情感中最有代表性单词,以及单词不同特征在表达不同细粒度情感时的不同能力。
[0014] 所述的提取社交媒体文本数据库中所有数据的单词和单词特征的步骤如下:
[0015] 1)采用自然语言处理工具标注每个单词的词性,以得到的词性标注结果作为各单 词的特征;
[0016] 2)去除其中无用的高频词以及频数过低的生僻词;
[0017] 3)统计处理后文本中所有出现过的单词,组成词汇表。
[0018] 所述的根据给定训练数据,通过Gibbs采样得到基于主题建模的多粒度情感分析 核心模型的步骤如下:
[0019] 1)由系统自动设定,或者由用户指定各组Dirichlet分布所需参数α、β和Y, 以及嵴回归惩罚项系数λ,并且设定好迭代次数、收敛条件等参数;
[0020] 2)对于文本中所包含的每个单词,随机分配K个主题中的一个作为该单词所属主 题;
[0021] 3)对于文本中所包含的每个单词,随机分配S个细粒度情感中的一个作为该单词 所表达的细粒度情感;
[0022] 4)在区间[-1,1]内随机初始化嵴回归参数η各分量,设置嵴回归方差〇2初始 值为1 ;
[0023] 5)对于各个文本文档d,统计属于各个主题k的单词数nd,k ;
[0024] 6)对于各个文本文档d,统计各个段落p中表达细粒度情感s的单词数nd, p,s及文 本文档d中具有细粒度情感s的单词总和nd,p ;
[0025] 7)对于各个主题k,统计属于细粒度情感s、具有特性t的单词数;
[0026] 8)对于各个主题k,统计属于细粒度情感s、单词为V的数量ns,k, v;
[0027] 9)将所有单词、单词特征、单词主题和单词表达的细粒度情感合并为Φ ; α、β、 Y合并记为Ψ ;记4为α的第k个分量、3S,V和'3分别为β的{s,v}组分量和Y 的It, s}组分量;记η s为η的第s个分量;记yd,p为文档d中段落p表达的粗粒度情感, 其在训练数据中已知;按如下概率采样文档d中段落p内的第i个单词所属主题Z iiu和所 表达细粒度情感8(1^ :
【权利要求】
1. 一种基于主题建模的多粒度情感分析方法,其特征在于包括如下步骤: 1) 提取社交媒体文本数据库中所有数据的单词和单词特征; 2) 根据系统自动设定或用户指定的参数,确定建模中所采用的主题数目和细粒度情感 数目; 3) 根据给定训练数据,通过Gibbs采样过程得到主题建模和细粒度情感建模的核心模 型; 4) 根据用户的查询请求从社交媒体数据库中搜索得到文本结果; 5) 通过Gibbs采样迭代确定每一个单词所属主题以及所属细粒度情感; 6) 通过嵴回归分类确定查询得到的每个文档中各段落表达的粗粒度情感并向用户反 馈; 7) 根据单词所属主题以及单词所表达细粒度情感向用户反馈各个主题和各个细粒度 情感中最有代表性单词,以及单词不同特征在表达不同细粒度情感时的不同能力。
2. 根据权利要求1所述的一种基于主题建模的多粒度情感分析方法,其特征在于所述 的提取社交媒体文本数据库中所有数据的单词和单词特征的步骤如下: 1) 采用自然语言处理工具标注每个单词的词性,以得到的词性标注结果作为各单词的 特征; 2) 去除其中无用的高频词以及频数过低的生僻词; 3) 统计处理后文本中所有出现过的单词,组成词汇表。
3. 根据权利要求1所述的一种基于主题建模的多粒度情感分析方法,其特征在于所述 的根据给定训练数据,通过Gibbs采样得到基于主题建模的多粒度情感分析核心模型的步 骤如下: 1) 由系统自动设定,或者由用户指定各组Dirichlet分布所需参数α、β和γ,以及 嵴回归惩罚项系数λ,并且设定好迭代次数、收敛条件等参数; 2) 对于文本中所包含的每个单词,随机分配K个主题中的一个作为该单词所属主题; 3) 对于文本中所包含的每个单词,随机分配S个细粒度情感中的一个作为该单词所表 达的细粒度情感; 4) 在区间[_1,1]内随机初始化嵴回归参数η各分量,设置嵴回归方差〇2初始值为 1 ; 5) 对于各个文本文档d,统计属于各个主题k的单词数nd,k ; 6) 对于各个文本文档d,统计各个段落p中表达细粒度情感s的单词数nd,p,s及文本文 档d中具有细粒度情感s的单词总和nd,p ; 7) 对于各个主题k,统计属于细粒度情感s、具有特性t的单词数ntits ; 8) 对于各个主题k,统计属于细粒度情感s、单词为V的数量ns,tv ; 9) 将所有单词、单词特征、单词主题和单词表达的细粒度情感合并为Φ;α、β、Y合 并记为Ψ;记ak为ct的第k个分量、βs,v和Yt,s分别为β的{s,ν}组分量和Y的{t,s} 组分量;记\为η的第s个分量;记yip为文档d中段落p表达的粗粒度情感,其在训练 数据中已知;按如下概率采样文档d中段落p内的第i个单词所属主题Ziiu和所表达细粒 度情感Siiu:
式中,符号代表从向量中排除一个分量,下文中采用了相同符号记法; 10) 将所有文档片段(这里是文档段落)表达的粗粒度情感记为向量y,所有文档段落 内单词表达的细粒度情感的比例组成矩阵Sr;记文档d中所包含的段落数目为Pd,如下式求 得η与σ2的估计值:々与
11) 检查算法是否满足收敛条件,如不满足返回步骤5 ; 12) 若算法已满足收敛条件,记各个细粒度情感和各个主题关于所有不同单词的多项 分布为Φ,各个单词特征和各个主题关于所有不同细粒度情感的多项分布为μ,如下式得 到Φ的{s,k,v}维参数估计量?ι,.和μ的{t,k,s}维参数估计量Ah:
4. 根据权利要求1所述的一种基于主题建模的多粒度情感分析方法,其特征在于所述 的通过Gibbs采样迭代地确定所有单词所属主题和所表达细粒度情感的步骤如下: 1) 由系统自动设定,或者由用户指定各组Dirichlet分布的参数α、β、Y,以及嵴回 归惩罚项系数λ,并且设定好迭代次数、收敛条件等参数; 2) 对于数据集包含的每个单词,随机分配K个主题中的一个作为该单词所属主题; 3) 对于数据集包含的每个单词,随机分配S个细粒度情感中的一个作为该单词所表达 的细粒度情感; 4) 对于各个文本文档d,统计属于某一主题k的单词数nd,k ; 5) 按如下概率采样文本文档d中段落p内的第i个单词所属主题Z4iu和所表达细粒 度情感Siiu:
6) 检查算法是否满足收敛条件,如不满足返回步骤4 ; 7) 若算法已满足收敛条件,输出所有单词所属主题z和所表达的细粒度情感s。
5. 根据权利要求1所述的一种基于主题建模的多粒度情感分析方法,其特征在于所述 的通过嵴回归分类确定所查询的每个文档中各段落表达的粗粒度情感并向用户反馈的步 骤如下: 1) 将所有文本文档段落中每个单词表达的细粒度情感的比例组成矩阵记为i,如下式 求得所有文档段落的粗粒度情感组成的向量y:
2) 将y中各个分量一一对应到所有文档段落,作为各个段落所表达粗粒度情感的预测 值; 3) 将所有预测值整理成可视化图表并反馈给用户。
6.根据权利要求1所述的一种基于主题建模的多粒度情感分析方法,其特征在于所述 的根据单词所属主题和单词所表达细粒度情感的最终分配结果向用户反馈各个主题中与 各个细粒度情感中最有代表性的单词信息的步骤如下: 1) 针对权利要求4中步骤7的输出结果,记各个细粒度情感和各个主题关于所有不 同单词的多项分布为Φ,各个单词特征和各个主题关于所有不同细粒度情感的多项分布为 μ,如下式得到Φ的{s,k,v}维参数估计量iih和μ的{t,k,s}维参数估计量Ah:
2) 将所有Ah在各主题上求和,得到具有单词特征t的所有单词表达细粒度情感s的 比例估计/'1; 3) 对于每个主题k和每种细粒度情感s,根据L,,.的大小由高至低对各个单词V排序; 4) 根据用户指定或系统设定的数量返回最前面的排序结果作为各个主题内表达各种 细粒度情感最有代表性的单词,并整理成可视化图表反馈给用户; 5) 对于每种单词特征t,根据的大小由高至低对各种细粒度情感s排序; 6) 将排序结果整理成可视化图表反馈给用户。
【文档编号】G06F17/30GK104462408SQ201410766559
【公开日】2015年3月25日 申请日期:2014年12月12日 优先权日:2014年12月12日
【发明者】汤斯亮, 邵健, 王翰琪, 吴飞, 庄越挺 申请人:浙江大学