一种跨领域文本情感倾向性分析方法

文档序号:6585108阅读:230来源:国知局

专利名称::一种跨领域文本情感倾向性分析方法
技术领域
:本发明涉及模式识别领域,具体涉及一种文本分析方法。
背景技术
:近年来,随着互联网快速发展,论坛、博客等网络交流平台不断涌现,人们越来越习惯于在网上发表主观性的言论,这些言论用于表达自己对于日常事件、产品、政策等的观点和看法,这使得网上存在大量带有情感倾向性的文本。那么如何对这些有主观情感的文本进行分类,判断其是正面还是负面,是持支持态度还是反对态度,这就引出了文本分类领域一个重要的研究方向一一情感倾向性分析问题。该问题有很多实际应用,成为引起越来越广泛关注的研究问题。随着信息量的急速增加、新领域的不断涌现,人们需要在越来越多的新领域里进行情感倾向性分析,而在新领域里重新进行人工标注是个费时费力的事情。因此要尽量基于已经标注好的数据对新领域进行分析,这使得跨领域的倾向性分析具有重大意义。近几年来,研究者们已经在跨领域倾向性分析问题上取得了一些进展。然而,现有的方法和系统往往只根据已标注文本对新领域文本进行倾向性分析,而只根据文本进行倾向性分析是片面的,不能利用词的知识提高倾向性分析的精度,这往往导致精度不高。因此,需要一个统一的模型框架有机地融合情感词的知识,以提高倾向性分析的精度。
发明内容本发明要解决的技术问题是提供一种精度高的跨领域文本情感倾向性分析方法。根据本发明的一个方面,提供了一种跨领域文本情感倾向性分析方法,包括下列步骤1)确定源领域和目标领域中文本与词的初始情感分;2)根据测试文本集和测试词集分别与所有词集和所有文本集的关系建立测试文本集Du与测试词集Wu和训练词集间的相似矩阵M、测试词集Wu与测试文本集Du和训练文本集&间的相似矩阵N和测试词集Wu与所有词集之间的相似矩阵V中的一个或多个,计算一个或多个相似矩阵的归一化矩阵和邻域矩阵;3)利用所述源领域和目标领域中文本与词的初始情感分和所述一个或多个相似矩阵的邻域矩阵迭代计算测试文本和测试词的情感分并进行归一化。在上述方法中,所述步骤2)还包括根据测试文本集和所有文本集的关系建立测试文本集Du和所有文本集之间的相似矩阵U,并计算所述相似矩阵U的归一化矩阵和邻域矩阵;所述步骤3)中所述迭代计算测试文本和测试词的情感分还利用所述相似矩阵U的邻域矩阵。在上述方法中,所述步骤2)中建立所述相似矩阵M和/或N,并计算其归一化矩阵和邻域矩阵的步骤进一步包括以测试文本、测试词、训练文本和训练词为结点,测试词和训练词在测试文本和训练文本中的重要性为边的权重建立文本_词情感图,根据所述文本_词情感图建立相似矩阵M禾口/或N;将所述相似矩阵M和/或N归一化;将归一化矩阵的每一行中属于不同领域的两部分分别进行降序排列得到矩阵^和/或》;由所述矩阵^的元素化,在所述相似矩阵M中的列号构成邻域矩阵Mn中的元素Mriij,由所述矩阵》的元素》y在所述相似矩阵N中的列号构成邻域矩阵Nn中的元素Nn『在上述方法中,所述步骤2)中建立所述相似矩阵V,并计算其归一化矩阵和邻域矩阵的步骤进一步包括以测试词和训练词为结点,词间语义相似性为边的权重建立词-词情感图,根据所述词_词情感图建立相似矩阵V;将归一化矩阵的每一行中属于不同领域的两部分分别进行降序排列得到矩阵^由所述矩阵j7的元素在所述相似矩阵V中的列号构成邻域矩阵Vn中的元素Vriij。在上述方法中,所述词间语义相似性为基于互信息法或隐含语义分析法计算。在上述方法中,所述步骤2)中建立所述相似矩阵U,并计算其归一化矩阵和邻域矩阵的步骤进一步包括以测试文本和训练文本为结点,文本间内容相似度为边的权重建立文本_文本情感图,根据所述文本_文本情感图建立相似矩阵U;将归一化矩阵的每一行中属于不同领域的两部分分别进行降序排列得到矩阵^由所述矩阵^的元素^^在所述相似矩阵U中的列号构成邻域矩阵Un中的元素Un『在上述方法中,所述文本间内容相似度为余弦相似度、或基于明氏距离、马氏距离、兰氏距离计算的相似度。本发明提供的文本情感倾向性分析方法能够大幅提高对新领域的文本进行分类的精度。图1是根据本发明的优选实施例的文本情感倾向性分析方法的流程图。具体实施例方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对根据本发明一个实施例的文本情感倾向性分析方法进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。事实上,文本的倾向性可以由相关文本以及相关情感词共同确定;反之,情感词的倾向性也同样可以由相关文本以及相关情感词共同确定。以上结论是基于以下两点原因1)、与其它持"支持"("反对")观点的文本紧密相关的文本也将持"支持"("反对")观点;同样,与其它持"支持"("反对")观点的词紧密相关的情感词也将持"支持"("反对")观点。2)、包含许多持"支持"("反对")观点的词的文本也将持"支持"("反对")观点;同样,出现在许多持"支持"("反对")观点的文本中的情感词也将持"支持"("反对")观点。基于上述结论,本发明利用源领域的标注文本和标注词对目标领域未标注文本按其倾向性进行分类。具体地,假设存在两个文本集测试文本集Du={dp...,di,...,dnd},其中&表示第i个测试文本的向量,所有测试文本都没有标签;训练文本集&={dnd+1,...,dj,...,dnd+md},其中dj表示第j个训练文本的向量,每一个训练文本djgD、其中j=nd+l,...,nd+md)都有一个来自类别集C二{支持,反对}中的标签。假设源领域和目标领域为相关但不相同的领域。同时,假设存在两个词集测试词集Wu={Wl,...,wnw}是D11中文本内的词的集合,所有词都没有标签;训练词集W^={wnw+1,...,wnw+}是^中文本内词的集合,每一个词WjgWL(其中j=nw+l,,nw+mw)都有一个来自C中的标签。下面将详细描述根据本发明的一个优选实施例,利用另一个领域的训练数据集&和来对测试文本集Du的每一个文本digDu(其中i=l,...,nd)分配一个C中的标签的详细过程。对于源领域的标注数据,给每个文本和词分配一个初始得分来表示它们的情感倾向性程度,其中"l"表示"支持","-l"表示"反对"。此后,将表示数据的情感倾向性程度的得分称为情感分。对于目标领域数据,本领域的普通技术人员可以理解,可以将初始情感分设为0;也可以基于文本分类算法中的任意一种分类器,诸如原型"Prototype"倾向性分析方法、朴素贝叶斯"NaiVeBayes"方法、支持向量机"SVM"分类器、k_最近邻方法、决策树方法等,利用源领域的标注数据训练,对目标领域数据分类使其具有一个初始情感分。在文本与词之间存在以下四种关系DD-关系文本间关系,可以采用文本间内容相似性计算。WW-关系词间关系,可以采用基于知识的方法或基于语料的方法计算。DW-关系文本与词间关系,可以采用词在文本中的相对重要性来计算。WD-关系词与文本间关系,可以采用文本对词的相对重要性来计算。根据本发明的一个具体实施例,将以上各种关系完全融合到一个统一的框架之中。整个过程由两部分构成情感图生成部分和相互增强部分。在情感图生成部分中,充分利用源领域的标注数据和目标领域的未标注数据,生成三个情感图来反映上述四种关系。在相互增强部分,可以采用随机游走模型来计算目标领域文本和词的情感分,当算法收敛时,所有的测试文本得到其最终情感分,并据此判别测试文本的倾向性。首先,生成三个情感图来反映上述四种关系。其中所用到的各符号如表1所示。第一列为关系的名称;第二列为对应于相应关系的相似性矩阵的表示符号;考虑到收敛性,需将相似性矩阵归一化,第三列为矩阵归一化后的矩阵表示符号;为了计算情感分,需要求出文本与词的邻域,第四列为邻域矩阵的表示符号。表1符号描述<table>tableseeoriginaldocumentpage7</column></row><table>采用以下方式建立一个加权二部图模型作为文本_词情感图来反映文本集Du和DL与词集wu和wM司的关系,其中该图中的结点可以分成两个不相交的集,使得同一集内的结点不相邻,且该图中的边具有权重。图中每个结点表示Du和&中一个文本或和Wu中一个词;如果词Wj出现在文本&中,生成一条从Wj到&的边。边的权重wei(di,Wj)由词Wj在文本&中的相对重要性来计算Xw^W,^)=f(x/:(1)其中w表示&中一个非重复词,tfw和idfw分别是文本中词w的词频及逆词频,y,和W/,.与之类似。根据上述文本-词情感图,以wei(di,Wj)为元素的邻接矩阵M二^」]油(+)表示文本集Du与词集Wu和间的相似矩阵,其前nw列表示Du和Wu间相似矩阵,后mw列表示Du和间相似矩阵。该邻接矩阵M表示了文本集Du与词集Wu或间的关系。考虑到收敛性,将邻接矩阵M归一化为矩阵A,使得A中每一行元素的和为1:<formula>formulaseeoriginaldocumentpage7</formula>为了找出一个文本在Wu和中的邻域(即最相似的词或者文本),分别对Du和Wu间相似矩阵以及DU和WM司相似矩阵进行降序排序,得到A。这也就是说,对化,(j=1,...,nw)的每一行进行降序排序,然后对^(j=nw+l,...,nw+mw)的每一行进行降序排序。因此,对于&GDu(i=1,...,nd),A(j=1,...,K》的相应元素在矩阵A中所在位置的列号表示文本di在WU中的邻居,类似地,^.(j=K,l,...,2K》的相应元素在矩阵A中所在位置的列号表示文本di在W^中的邻居,邻居个数I^的取值范围为[O,min(训练词个数,测试词个数)]。使用邻域矩阵M"=[MLc,来表示Du在Wu和中的邻居,也就是说Mriij为元素^在矩阵A中的列号。类似地,根据上述文本-词情感图,使用邻接矩阵N=[Nij]自(nd+md)表示词集Wu与文本集Du和&间的相似矩阵,其前nd列表示Wu和Du间相似矩阵,后md列表示Wu和&间相似矩阵。该矩阵表示词集WU与文本集DU或DM司的关系。每个元素Nij即为wei(dj,Wi)。将邻接矩阵N归一化为矩阵》,使得々中每一行的和为1。然后分别对A(j=1,...,nd)的每一行及A(j=nd+l,...,nd+md)的每一行进行降序排序得到矩阵》。最终,使用矩阵w^[WL^来表示Wu在Du和DL中的邻居,1(2的取值范围为[O,min(训练文本个数,测试文本个数)]。建立一个无向图模型作为文本_文本情感图,结点表示&和Du中的文本,边表示文本间的内容相似度。如果两个文本间内容相似度为0,则图中两点间无边,如果不为0,则图中两点间有边,且边的权重即为此内容相似度。本领域普通技术人员可以理解,文本的内容相似度有多种计算方法,例如利用余弦相似度或者基于诸如明氏"Minkowski"距离、马氏"Mahalanois"距离、兰氏"Lance"距离的某种距离函数计算相似度。在该实施例中,用余弦相似度来计算。使用邻接矩阵U来表示该相似矩阵,其前nd列表示Du间的相似矩阵,后md列表示Du和&间的相似矩阵。为保证算法收敛,将邻接矩阵U归一化为矩阵f),使得()中每一行的和为1。然后分别对《(j=1,...,nd)的每一行以及《(j=nd+l,...,nd+md)的每一行进行降序排序得至W。最后,使用矩阵""=[""山w来表示Du在Du和&中的邻居,K3的取值范围为。类似于文本-文本情感图,建立一个无向图模型作为词-词情感图来反映词集W^与WU间的关系,每个结点表示一个词,边的权重表示词间语义相似性。可以使用基于语料的方法计算词与词的语义相似性,即利用语料中的信息计算词间的相似性,本领域普通技术人员可以理解,基于语料的方法又分为很多方法,如互信息法、隐含语义分析法等。根据该实施例,采用滑动窗口法计算词的语义相似性。使用邻接矩阵V来表示相似矩阵,其前nw列表示Wu和Wu间的相似矩阵,后mw列表示Wu和间的相似矩阵。同样,将邻接矩阵V归一化为矩阵八使得)中每一行的和为1。然后分别将&(」=l,...,nw)中的每一行以及^(j=nw+l,...,nw+mw)中的每一行进行降序排序得到^,使用矩阵K"=[],来表示Wu在Wu和,中的邻居,k4的取值范围为。本领域普通技术人员可以理解,根据本发明的优选实施例,以上全部四种关系可以全部采用。当然,即使只采用以上四种关系后三种中的l种或多种,也已经利用了词的知识。例如,1^取0时表示没用到词对文本的促进关系;K2取0时表示没用到文本对词的促进关系;K3取0时表示没用到文本间关系;K4取0时表示没有用到词间关系。&、K2、K3、K4不能同时取o。将根据上述三个情感图表示的四种关系融合在一起来迭代计算情感分,由此得到以下计算公式<formula>formulaseeoriginaldocumentpage8</formula><formula>formulaseeoriginaldocumentpage8</formula>其中,i表示矩阵的第i行,j表示矩阵的第j行;Ds={dSl,...,dsnd,dsnd+1,...,dsnd+md}中的每个元素分别表示Du和&中的文本的情感分;Ws={WSl,...,wsnw,wsnw+1,...,wsnw+mw}中的每个元素分别表示Wu和中的词的情感分;a禾P|3分别表示文本集和词集对最终情感分的贡献大小,其取值范围均为[o,l],且=1,a取o时表示没有用到文本间关系以及文本对词的关系;P取0时表示没有用到词对文本的关系以及词间关系。geuni.表示g是阵Un中第i行的一个元素,f^表示矩阵f)中第i行第g列的元素,其他类似符号类推。为保证算法收敛,算法每迭代一次都需要分别将Ds和Ws根据公式(5)和(6)进行归一化,使得正的情感分之和为l,负的情感分之和为-1。成<formula>formulaseeoriginaldocumentpage9</formula><formula>formulaseeoriginaldocumentpage9</formula>(6)其中DMgu和Dp。su分别表示Du中倾向性为"反对"的文本集合及"支持"的文本集合;WMgu和Wp。su分别表示Wu中倾向性为"反对"的词集合及"支持"的词集合。根据本发明的优选实施例,完整算法如下所述1、初始化&GDL(i=nd+1,...,nd+md)的情感分dSi(当标注为"支持"时情感分初始化为"l","反对"时情感分初始化为"-l"),初始化WiGWL(i=nw+l,...,nw+mw)的情感分wSi(当Wi标注为"支持"时情感分初始化为"l","反对"时情感分初始化为"-l")。然后分别将ds;(i=nd+l,...,nd+md)禾口ws丄(i=nw+l,...,nw+mw)归一化,使得DL中的文本的正的情感分之和为1,&中的文本的负的情感分之和为-1;类似地,归一化wSi。同时将Du和Wu中的文本或词的情感分初始化为0。2、迭代进行下两步直到收敛2.1根据下列公式计算dSi(i=1,...,nd)并归一化<formula>formulaseeoriginaldocumentpage9</formula>2.2根据下列公式计算WSj(j<formula>formulaseeoriginaldocumentpage9</formula>其中ds,)和WS,)分别表示第k次迭代时的情感分dSi和WS,.。3、对于每GDs(i=1,J试文本diGDu(i=l,...nd),如果连续两次迭代所计算得到的情.,nd)的变化量低于一个给定的阀值,则迭代结束,根据此时的情-个具体实施例,此阀值为0.00001。[O,l],则将di标注为"支持"。感分判别每个测试文本的情感倾向性。根据本发明的-如果dSiG[-l,O],则将&标注为"反对";如果dSiG本发明针对如表2所示的三个不同领域(电子、财经、酒店)的文本集进行实验模拟。评价指标采用精度,对比方法采用Prototype倾向性分析方法。表2:数据集构成<table>tableseeoriginaldocumentpage10</column></row><table>其中"词典长度"表示数据集中不同词的数量。实验模拟结果如表3所示,其中电子_>财经表示在电子领域上进行训练,在财经领域上进行测试,O.6652表示Prototype方法测试结果的精度,也就是采用Prototype方法的正确率,其它类推。实验结果表明本发明的文本情感倾向性分析方法具有较高移植能力。在对新领域测试集进行测试时,本发明的平均精度达到了82.05%,大约比Prototype方法平均高14.2个百分点。表3实验结果<table>tableseeoriginaldocumentpage10</column></row><table>应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。权利要求一种跨领域文本情感倾向性分析方法,包括下列步骤1)确定源领域和目标领域中文本与词的初始情感分;2)根据测试文本集和测试词集分别与所有词集和所有文本集的关系建立测试文本集DU与测试词集WU和训练词集WL间的相似矩阵M、测试词集WU与测试文本集DU和训练文本集DL间的相似矩阵N和测试词集WU与所有词集之间的相似矩阵V中的一个或多个,计算一个或多个相似矩阵的归一化矩阵和邻域矩阵;3)利用所述源领域和目标领域中文本与词的初始情感分和所述一个或多个相似矩阵的邻域矩阵迭代计算测试文本和测试词的情感分并进行归一化。2.根据权利要求1所述的方法,其特征在于,所述步骤2)还包括根据测试文本集和所有文本集的关系建立测试文本集Du和所有文本集之间的相似矩阵U,并计算所述相似矩阵U的归一化矩阵和邻域矩阵;所述步骤3)中所述迭代计算测试文本和测试词的情感分还利用所述相似矩阵U的邻域矩阵。3.根据权利要求1或2所述的方法,其特征在于,所述步骤2)中建立所述相似矩阵M和/或N,并计算其归一化矩阵和邻域矩阵的步骤进一步包括以测试文本、测试词、训练文本和训练词为结点,测试词和训练词在测试文本和训练文本中的重要性为边的权重建立文本_词情感图,根据所述文本_词情感图建立相似矩阵M和/或N;将所述相似矩阵M和/或N归一化;将归一化矩阵的每一行中属于不同领域的两部分分别进行降序排列得到矩阵A和/或》;由所述矩阵A的元素^在所述相似矩阵M中的列号构成邻域矩阵Mn中的元素Mriij,由所述矩阵》的元素々y在所述相似矩阵N中的列号构成邻域矩阵Nn中的元素Nriij。4.根据权利要求1或2所述的方法,其特征在于,所述步骤2)中建立所述相似矩阵V,并计算其归一化矩阵和邻域矩阵的步骤进一步包括以测试词和训练词为结点,词间语义相似性为边的权重建立词-词情感图,根据所述词-词情感图建立相似矩阵V;将归一化矩阵的每一行中属于不同领域的两部分分别进行降序排列得到矩阵p;由所述矩阵p的元素^^在所述相似矩阵V中的列号构成邻域矩阵Vn中的元素Vnij。5.根据权利要求4所述的方法,其特征在于,所述词间语义相似性为基于互信息法或隐含语义分析法计算。6.根据权利要求2所述的方法,其特征在于,所述步骤2)中建立所述相似矩阵U,并计算其归一化矩阵和邻域矩阵的步骤进一步包括以测试文本和训练文本为结点,文本间内容相似度为边的权重建立文本-文本情感图,根据所述文本_文本情感图建立相似矩阵U;将归一化矩阵的每一行中属于不同领域的两部分分别进行降序排列得到矩阵^由所述矩阵j的元素^y在所述相似矩阵U中的列号构成邻域矩阵Un中的元素Unij。7.根据权利要求6所述的方法,其特征在于,所述文本间内容相似度为余弦相似度、或基于明氏距离、马氏距离、兰氏距离计算的相似度:全文摘要本发明提供一种跨领域文本情感倾向性分析方法,包括下列步骤1)确定源领域和目标领域中文本与词的初始情感分;2)根据测试文本集和测试词集分别与所有词集和所有文本集的关系建立测试文本集DU与测试词集WU和训练词集WL间的相似矩阵M、测试词集WU与测试文本集DU和训练文本集DL间的相似矩阵N和测试词集WU与所有词集之间的相似矩阵V中的一个或多个,计算一个或多个相似矩阵的归一化矩阵和邻域矩阵;3)利用所述源领域和目标领域中文本与词的初始情感分和所述一个或多个相似矩阵的邻域矩阵迭代计算测试文本和测试词的情感分并进行归一化。该方法能够大幅提高对新领域的文本进行分类的精度。文档编号G06F17/27GK101714135SQ20091024242公开日2010年5月26日申请日期2009年12月11日优先权日2009年12月11日发明者吴琼,段洣毅,程学旗,谭松波申请人:中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1