本发明涉及微博语言分析技术领域,特别是涉及一种基于藏语语言特征的藏语情感词典的构建方法及系统。
背景技术:
目前,英文和中文的情感分析领域比较成熟,尤其英语情感处理领域,拥有非常全面的情感词典资源,其中比较著名的有普林斯顿大学的sentiwordnet、哈佛大学整理且开发了generalinquirer(gi)词典,这些词典是很多研究者通常选用的资源之一,在该词典中,不但每个词的义项都被列出,其情感属性也有相应的标注。中文中可使用的资源有董振东老师开发的《知网》(hownet);张伟、刘缙等人编撰的《学生褒贬义词典》;史继林、朱英贵编撰《褒义词词典》;杨玲,朱英贵编撰的《贬义词词典》;哈尔滨工业大学信息检索实验室整理的《同义词词林扩展版》;清华大学整理共享的《中文褒贬义词典》;大连理工大学整理的《情感词汇本体》以及台湾大学整理的中文情感词典(ntusd)。
而藏语作为中国国内的一种重要语言,其语言处理发展缓慢,藏语的情感分析研究起步相对较晚,语料及情感资源匮乏,藏语缺乏语义词典,不易分析确定藏语语言表达的情感,从而引起理解错误,例如在微博中,因为错误理解藏语语言表达的情感,可能会使得无法准确找到需要微博信息,造成流量的浪费等。
技术实现要素:
本发明的目的是提供一种基于藏语语言特征的藏语情感词典的构建方法,可准确确定当前藏语微博信息表达的情感。
为实现上述目的,本发明提供了如下方案:
一种基于藏语语言特征的藏语情感词典的构建方法,所述构建方法包括:
将带有情感分类的汉语词汇本体与汉藏词典进行匹配,获得藏语基础情感词典;
通过word2vec工具对预先收集的藏语微博信息进行语料训练,获得语料训练词汇的近义词集,作为扩充候选词集合;
计算各个扩充候选词的权重方差;
根据所述权重方差对所述扩充候选词进行筛选,获得情感扩充词,对藏语基础情感词典进行扩充,用于分析当前藏语微博信息表达的情感。
可选的,所述构建方法还包括:在进行匹配后,对匹配的结果进行校对,删除无关词汇。
可选的,语料训练词汇包括基本词、表情词、程度副词、否定词及连词中至少一者;
其中,获得表情词的近义词集包括:
从语料训练的结果中抽取表情词;
统计抽取的各个表情词的出现频率;
根据所述出现频率以及各个表情词表示的情感对各个抽取的表情词进行筛选,将筛选后的表情种子集合添加到扩充候选词集合中。
可选的,所述计算各个扩充候选词的权重方差具体包括:
设藏语微博信息形成的文档集合为d,情感类别为k,k∈k,d={d1,d2,...,dk},dk表示第k类情感的文档集合;文档总数为n,n=n1+n2+...+nk,nk表示第k类情感的文本数量;扩充候选词集合w={w1,w2,...,wn};
计算扩充候选词wi在文档集合dk中出现的比例tfik:
计算扩充候选词wi的反文档频率idfi:
根据比例tfik和反文档频率idfi,计算扩充候选词wi在对应情感类别中的权重值tfidfik:
tfidfik=tfik×idfi----------(3);
计算扩充候选词wi在各个情感类别中权重的平均值
根据权重值tfidfik及权重的平均值
可选的,根据所述权重方差对所述扩充候选词进行筛选具体包括:
将各个扩充候选词的权重方差按照从大到小的顺序排序;
选取设定数量的权重方差对应的扩充候选词添加到藏语基础情感词典中。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明基于藏语语言特征的藏语情感词典的构建方法通过将汉语词汇本体与汉藏词典进行匹配获得藏语基础情感词典,通过word2vec工具对藏语微博信息进行语料训练以及筛选,在藏语基础情感词典基础进行扩充,以提供更多的藏语情感词汇,从而能够准确分析当前藏语微博信息表达的情感。
本发明的目的是提供一种基于藏语语言特征的藏语情感词典的构建系统,可准确确定当前藏语微博信息表达的情感。
为实现上述目的,本发明提供了如下方案:
一种基于藏语语言特征的藏语情感词典的构建系统,所述构建系统包括:
匹配单元,用于将带有情感分类的汉语词汇本体与汉藏词典进行匹配,获得藏语基础情感词典;
扩充单元,用于通过word2vec工具对预先收集的藏语微博信息进行语料训练,获得语料训练词汇的近义词集,作为扩充候选词集合;
计算单元,用于计算各个扩充候选词的权重方差;
筛选单元,用于根据所述权重方差对所述扩充候选词进行筛选,获得情感扩充词,对藏语基础情感词典进行扩充,用于分析当前藏语微博信息表达的情感。
可选的,所述构建系统还包括:
校对单元,设置在所述匹配单元与扩充单元之间,用于将匹配的结果进行校对,删除无关词汇。
可选的,所述语料训练词汇包括基本词、表情词、程度副词、否定词及连词中至少一者;
其中,所述扩充单元用于获得表情词的近义词集时包括:
抽取模块,用于从语料训练的结果中抽取表情词;
统计模块,用于统计抽取的各个表情词的出现频率,
扩充模块,用于根据所述出现频率以及各个表情词表示情感对各个抽取的表情词进行筛选,将筛选后的表情种子集合添加到扩充候选词集合中。
可选的,设藏语微博信息形成的文档集合为d,情感类别为k,k∈k,d={d1,d2,...,dk},dk表示第k类情感的文档集合;文档总数为n,n=n1+n2+...+nk,nk表示第k类情感的文本数量;扩充候选词集合w={w1,w2,...,wn};
所述计算单元包括:
第一计算模块,用于计算扩充候选词wi在文档集合dk中出现的比例tfik:
第二计算模块,用于计算扩充候选词wi的反文档频率idfi:
第三计算模块,用于根据比例tfik和反文档频率idfi,计算扩充候选词wi在对应情感类别中的权重值tfidfik:
tfidfik=tfik×idfi----------(3);
第四计算模块,用于计算扩充候选词wi在各个情感类别中权重的平均值
第五计算模块,用于根据权重值tfidfik及权重的平均值
可选的,所述筛选单元包括:
排序模块,用于将各个扩充候选词的权重方差按照从大到小的顺序排序;
筛选模块,用于选取设定数量的权重方差对应的扩充候选词添加到藏语基础情感词典中。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明基于藏语语言特征的藏语情感词典的构建系统通过设置匹配单元、扩充单元、计算单元及筛选单元,将汉语词汇本体与汉藏词典进行匹配获得藏语基础情感词典,通过word2vec工具对藏语微博信息进行语料训练以及筛选,在藏语基础情感词典基础进行扩充,以提供更多的藏语情感词汇,从而能够准确分析当前藏语微博信息表达的情感。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例基于藏语语言特征的藏语情感词典的构建方法的流程图;
图2为本发明实施例中基于藏语语言特征的藏语情感词典的构建系统的单元结构图。
符号说明:
匹配单元—1,校对单元—2,扩充单元—3,计算单元—4,筛选单元—5。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于藏语语言特征的藏语情感词典的构建方法,通过将汉语词汇本体与汉藏词典进行匹配获得藏语基础情感词典,通过word2vec工具对藏语微博信息进行语料训练以及筛选,在藏语基础情感词典基础进行扩充,以提供更多的藏语情感词汇,从而能够准确分析当前藏语微博信息表达的情感。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明基于藏语语言特征的藏语情感词典的构建方法包括:
步骤100:将带有情感分类的汉语词汇本体与汉藏词典进行匹配。
步骤200:在进行匹配后,对匹配的结果进行校对,删除无关词汇。
步骤300:通过word2vec工具对预先收集的藏语微博信息进行语料训练,获得语料训练词汇的近义词集,作为扩充候选词集合。
步骤400:计算各个扩充候选词的权重方差。
步骤500:根据所述权重方差对所述扩充候选词进行筛选,获得情感扩充词,对藏语基础情感词典进行扩充,用于分析当前藏语微博信息表达的情感。
在本实施例中,汉语词汇本体可采用大连理工大学的词汇本体。如表1所示,在词典构建过程中借助汉藏对照词典进行平行匹配,由于一词多义的缘故,匹配过程中会出现一个汉语词对应多个藏语词的翻译,导致匹配结果存在大量的无关词汇,通过校对,可删除无关词汇,确保藏语基础情感词典构建的准确性。
表1基础藏语情感词典处理情况
在情感分析处理中,情感词是及其重要的情感特征,但是对于藏语网络内容的情感分析处理,现有的情感词典资源并不能满足微博情感分析需求,需要进一步地对语基础情感词典进行扩充,以增加情感词汇量。具体的,通过word2vec工具利用大规模的藏语微博信息进行语料训练,得到语料训练词汇的近义词集。
其中,语料训练词汇包括基本词、表情词、程度副词、否定词及连词中至少一者;所述基本词为藏语语言中除表情词、程度副词、否定词及连词以外的所有词汇。
具体的,获得表情词的近义词集包括:从语料训练的结果中抽取表情词;统计抽取的各个表情词的出现频率;根据所述出现频率以及各个表情词表示的情感对各个抽取的表情词进行筛选,将筛选后的表情种子集合添加到扩充候选词集合中。
当输入微博信息时,通过word2vec工具可根据输入数据集中导出词类,将数据由单个词变成相关的近义词集。由于一个词的信息量是有限的,而且也容易引起歧义。通过使用word2vec工具获取同类别词集时,不再是以单个词汇参与计算,而是一个词集。这样的做法能够实现对词语的初步聚类,而且能够进一步的提高语义相似度计算的精确性。
本实施例中,对预先收集的32万条藏语微博信息进行语言训练,得到微博词向量模型。例如,在输入“[太开心]”表情词,就会得到与“[太开心]”相近的其他单词以及它们之间的语义距离。如下表2所示,关联藏语词汇栏中与“[太开心]”相近的词(语义距离是指该相近词与指定词之间的相似度,值越大越表示两者相似度高)。
表2关于word2vec示例
通过选取出现频次较高且具有明显的情感倾向的表情词作为扩展种子,最终得到的表情种子集合(如表3)。
表3表情种子集
由于语义距离不同,使得扩充候选词集合中所有的近义词并不能准确的表示语料训练词汇,需要进一步处理。
本发明提出了一种改进的基于方差的tf-idf情感词过滤算法。tf-idf方法相较于单纯词频(tf)或文档频率(df),既考虑了特征项在局部的分布特征,也充分考虑了特征项在全局的分布特征。
具体地,在步骤400中,设藏语微博信息形成的文档集合为d,情感类别为k,k∈k,d={d1,d2,...,dk},dk表示第k类情感的文档集合;文档总数为n,n=n1+n2+...+nk,nk表示第k类情感的文本数量;扩充候选词集合w={w1,w2,...,wn}。
所述计算各个扩充候选词的权重方差具体包括:
步骤401:计算扩充候选词wi在文档集合dk中出现的比例tfik:
步骤402:计算扩充候选词wi的反文档频率idfi:
步骤403:根据比例tfik和反文档频率idfi,计算扩充候选词wi在对应情感类别中的权重值tfidfik:
tfidfik=tfik×idfi----------(3)。
步骤404:计算扩充候选词wi在各个情感类别中权重的平均值
步骤405:根据权重值tfidfik及权重的平均值
扩充候选词的方差越大,表示该扩充候选词在不同的类别中的权重波动越大,情感倾向于某一唯一类别的可能性越大。因此,本发明可以根据各个候选情感特征的权重方差大小,确定表示唯一情感类别的情感扩充词。
可选的,在步骤500中,根据所述权重方差对所述扩充候选词进行筛选具体包括:
步骤501:将各个扩充候选词的权重方差按照从大到小的顺序排序;
步骤502:选取设定数量的权重方差对应的扩充候选词添加到藏语基础情感词典中。
进一步地,藏语中的副词可以作状语,表示时间、方式、范围、方向的副词修饰动词;表示程度的副词一般修饰形容词,少数可以修饰动词。副词一般不会独立成句,依赖性较强。副词中对情感倾向性有影响的主要是程度副词和否定副词。其中程度副词对于情感的倾向性会有一定的增强或者减弱的作用,是影响情感倾向性的一个比较重要因素。被程度副词修饰着的情感词,情感词本身的情感倾向性程度会有所加强或者是减弱,程度副词在微博文本中出现频率是比较高的。如表4所示,本发明收集常用的藏语程度副词并根据程度级别给出不同的权重。
表4副词词典示例
同样的,否定副词是对情感倾向性会有着否定或者反转的作用,因为语料中情感词本身是正向或者是负向,但是如果情感词被否定副词进行修饰限定后,而仍旧仅仅通过情感词的极性对文本进行分析判定,这会造成分析判别的错误。句子否定词的出现能够直接影响情感倾向性,因此,在情感词典的构建中,需要考虑否定副词对情感词极性的影响。在本实施例中,共计收集21个常用的藏语否定词(如表5所示)。
表5否定词词典示例
此外,连词可以连接词或词组使之结合起来作为句子的一个成分,也可以连接分句使之构成复句并表示分句之间的关系,有的连词还可以连接句子甚至一段话语,并表示前后文之间的关系。连词只有连接作用,没有任何修饰作用,更不会充当句子成分。连词又分为很多种,有一些种类的连词,其前后的情感词情感倾向性会因为连词种类的不同而相对会有所区别。
本发明提出的情感分析主要考虑是并列连词和转折连词,这两种连词的特点是连词前后部分的感情倾向性相同或相反。连词中的并列连词前后的情感词一般具有相同的情感倾向性,转折连词前后的情感词一般具有相反的情感倾向性。这对于情感倾向性分析会有一定的帮助和提示作用。因此,连词可以作为情感倾向性分析中的一个特征。在本实施中,本发明给出藏文网络内容中常用连词,如表6所示。
表6连词词典示例
本发明提出了一种用于网络文本情感分析的藏语情感词资源扩充方法,通过借助于已有的汉语、英语情感资源和汉藏词典、汉英词典来初步构建藏语情感基础词典;根据藏语微博的表情符号等辅助特征提取更多的藏语情感词;同时针对藏语是一种标记型语言特点,对于具有明显情感语气的藏语词汇(如程度副词、否定词和连词)扩充藏语情感词典的规模,从而使得提供足够多的藏语情感词,以准确分析藏语微博信息,减少消极言论的传播,降低流量的损失。
本发明还提供一种基于藏语语言特征的藏语情感词典的构建系统,可准确确定当前藏语微博信息表达的情感。如图2所示,本发明基于藏语语言特征的藏语情感词典的构建系统包括匹配单元1、校对单元2、扩充单元3、计算单元4及筛选单元5。
其中,所述匹配单元1用于将带有情感分类的汉语词汇本体与汉藏词典进行匹配,获得藏语基础情感词典;所述校对单元用于将匹配的结果进行校对,删除无关词汇。所述扩充单元3用于通过word2vec工具对预先收集的藏语微博信息进行语料训练,获得语料训练词汇的近义词集,作为扩充候选词集合;所述计算单元4用于计算各个扩充候选词的权重方差;所述筛选单元5用于根据所述权重方差对所述扩充候选词进行筛选,获得情感扩充词,对藏语基础情感词典进行扩充,用于分析当前藏语微博信息表达的情感。
其中,所述语料训练词汇包括基本词、表情词、程度副词、否定词及连词中至少一者;
其中,所述扩充单元3用于获得表情词的近义词集时包括抽取模块、统计模块、扩充模块;所述抽取模块用于从语料训练的结果中抽取表情词;所述统计模块用于统计抽取的各个表情词的出现频率,所述扩充模块,用于根据所述出现频率以及各个表情词表示情感对各个抽取的表情词进行筛选,将筛选后的表情种子集合添加到扩充候选词集合中。
设藏语微博信息形成的文档集合为d,情感类别为k,k∈k,d={d1,d2,...,dk},dk表示第k类情感的文档集合;文档总数为n,n=n1+n2+...+nk,nk表示第k类情感的文本数量;扩充候选词集合w={w1,w2,...,wn}。
所述计算单元4包括第一计算模块、第二计算模块、第三计算模块、第四计算模块及第五计算模块。
其中,第一计算模块,用于计算扩充候选词wi在文档集合dk中出现的比例tfik:
所述第二计算模块用于计算扩充候选词wi的反文档频率idfi:
所述第三计算模块用于根据比例tfik和反文档频率idfi,计算扩充候选词wi在对应情感类别中的权重值tfidfik:
tfidfik=tfik×idfi----------(3)。
所述第四计算模块用于计算扩充候选词wi在各个情感类别中权重的平均值
所述第五计算模块用于根据权重值tfidfik及权重的平均值
进一步地,所述筛选单元5包括排序模块及筛选模块。其中,所述排序模块用于将各个扩充候选词的权重方差按照从大到小的顺序排序;所述筛选模块,用于选取设定数量的权重方差对应的扩充候选词添加到藏语基础情感词典中。
相对于现有技术,本发明基于藏语语言特征的藏语情感词典的构建系统与上述基于藏语语言特征的藏语情感词典的构建方法的有益效果相同,在此不再赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。