您好, 访客   登录/注册

维吾尔语情感倾向性分析研究综述

来源:用户上传      作者:刘若兰 年梅 杨建萍

  摘要:情感分析技术旨在获取评论文本包含的情感信息和知识,被广泛应用在众多领域。伴随维吾尔语网络内容的快速增长,维吾尔文倾向性分析研究的重要性日益凸显,本文针对维吾尔语情感倾向性分析研究的现状和进展进行总结。文章从词语级、句子级两个粒度层面介绍当前维吾尔文情感分析的主要技术和方法,句子层级又细分为粗粒度情感分析、细粒度情感分析两个层次介绍相关研究工作,最后总结了维吾尔语情感分析面临的研究难点和未来的研究方向。
  关键词:维吾尔语;情感分析;词汇极性判断;句子情感分析
  中图分类号:TP301 文献标识码:A
  文章编号:1009-3044(2022)28-0004-03
  1 引言
  随着互联网技术和社交软件的普及,越来越多的维吾尔族网民也从互联网信息的获取者转变为创造者,通过网络在线交流、获取信息、共享资源、发表评论。伴随信息技术的飞速发展,大量面向维吾尔语的网站、博客、论坛等平台不断建立,这些平台中发布了大量维吾尔语主观性文本,表达网民对产品或服务的评价、对新闻事件或国家政策的态度。其中难免有一些带有负面情感的消极信息,这类负能量信息将对社会造成负面影响,如果持续发酵、逐步扩散,甚至会对社会稳定和经济发展造成严重危害。借助情感倾向性分析技术快速准确分析公众对于新闻事件、国家政策的看法,能够及时掌握网民的舆论倾向和动态,帮助政府有关部门有效监控舆情走向,尽早采取针对性措施净化网络环境、传播正能量, 发挥保障新疆地区社会安定、经济发展的重要作用。
  中英文情感倾向性分析研究起步较早,国内外已有众多学者进行了大量研究,并取得了一系列显著成果。文献[1-3]主要从情感分析面临的主要任务、使用的主流方法等方面,对英文文本情感分析研究进行概括和介绍。文献[4-5]主要介绍中文文本情感倾向性分析的主流技术和研究进展。相比之下,针对维吾尔语这种小语种的情感分析研究起步晚,研究成果也较少,介绍维吾尔语情感分析研究进展及现状的综述性文献也十分匮乏。因此,本文主要介绍针对维吾尔语文本的情感分析主流方法。按照分析文本粒度的不同,文本情感分析可以分为词语级、短语级、句子级、篇章级等几个研究层次。由于维吾尔语情感分类研究时间较短,目前相关研究主要集中在词汇级、句子级分类方面,并且其研究成果可以应用、扩展到篇章级的情感分类研究。因此本文接下来主要介绍词语级、句子级维吾尔语情感分类工作的相关研究进展。
  2 不同粒度的维吾尔语文本情感分析
  2.1 维吾尔语词语的情感极性判别
  维吾尔语和其他语言一样,词语是构成句子的最基本单元,词语的情感极性判别是文本情感分析的基础工作。通常词语的情感可划分为褒义词、贬义词、中性词三种。目前,维吾尔语词汇的情感极性判别主要借鉴中英文词汇的极性判别算法,主要采用基于语料库的方法。
  基于语料库判别情感词的方法,主要是利用大规模语料中词语之间的搭配、共现和统计等特征计算词语的情感极性。禹龙[6]等人首先分析维吾尔语主观语料中情感词汇的表现特征,然后依据该语言规律设计5类特征模板,最后利用条件随机场模型(CRF) 从维文情感语料中自动识别情感词汇。文献[7]在构建维吾尔语情感词典的过程中,基于中文情感分析的现有成果,构建维文情感种子词和维文候选情感词,利用表征词语共现特征的点互信息算法,基于大规模维文语料,计算候选词的情感极性后加入褒贬情感词典中。文献[8]以文献[7]构建的维吾尔语褒贬情感词典为基础,总结并利用连词、程度副词与情感词的搭配规律从维文语料中提取候选情感词,再运用连词连接极性词汇的特点,设计利用搜索引擎从互联网海量语料中获取候选词情感极性的算法。玛尔哈巴・艾赛提[9]等人基于维吾尔语语法特点,研究总结维吾尔语情感词汇在上下文语境中的表现特征,构建4类维吾尔语新增特征模型,与带词权重的TF-IDF算法相结合,实现维吾尔语情感词汇的获取和极性判别。
  与中英文判别词汇情感极性的算法相比,由于维吾尔语尚没有像英文WordNet和中文HowNet等语义知识网资源,因此利用语义词典判别中英文词汇情感别的方法根本无法在维吾尔语中运用,只能依靠统计等方法来进行极性分类,故自动判别维吾尔语情感词汇较中英文更加困难。
  2.2 维吾尔语句子的情感分析
  句子情感分析的主要任务是判断评论文本属于正面评价还是负面评价,以此挖掘作者对评价对象的真实看法是肯定还是否定,是积极还是消极。针对句子水平的情感分析可以进一步划分为两类,一类是分析句子整体的情感倾向,也可称为粗粒度情感分析。另一类是分析句子中各主题意见对的情感类别,也叫细粒度情感分析,这类分析方法可以识别出用户对产品或服务属性的具体态度,以便获知被用户给予差评的具体属性,提出针对性的产品服务改进方案。
  2.2.1 维吾尔语句子整体的情感倾向分析
  句子总体的情感分类,根据采用的技术可以分为四类:基于情感词典的方法、基于机器学习的方法、基于词典和机器学习相结合的方法、基于深度学习的方法。
  基于情感词典的方法,主要思路是依靠情感词典计算词语的情感极值,再结合维文中影响句子极性的表达特征,判别句子的最终极性。黄俊[10]等人在文献[6]制定特征集的基础上,增加词干特征,使用CRF模型自动标注维吾尔语情感词,根据语料中各类情感词词频设置情感类别权重,将句子中各类情感词的出现次数与情感类别权重相结合为每种情感类别赋分,最后结合影响句子情感基调的转折连词、否定成分等完成情感倾向的修正。年梅[11]等人首先利用中文情感词典、维吾尔语同义词词典资源构建维文情感词典,然后分析总结各种修饰成分对句子情感极性的影响,并赋予相应权重,最后与极性情感词共同确定句子的情感极性。
  基于机器学习的方法,把情感分类问题视为特殊的文本分类任务,将标注好的训练数据集输入支持向量机(SVM) 等机器学习模型中训练,获得情感分类器,再利用分类器对待分类数据的倾向性进行预测。文献[12]运用朴素贝叶斯(NB) 、最大熵(ME) 、支持向量机(SVM) 三种机器学习算法进行维吾尔语句子的情感分类,特征表示分别采用UniGram(一元)、BiGrams(二元)和TriGrams(三元)三类语言模型,特征函数选择了互信息(MI) 、信息增益(IG) 和文档频率(DF) ,实验结果表明,维吾尔语的UniGram语言模型效果最优,ME和SVM的分类效果接近,NB的效果最差。罗亚伟等人[13]研究隐式情感的识别,提出基于CRFs模型的维吾尔语句子级隐式情感分析方法。文献[14]研究如何提取富含情感信息的区分性关键词,并作为特征项输入SVM分类器对维吾尔语句子进行情感分析。阿不都萨拉木・达吾提[15]等人在区分性关键词特征的基础上,结合情感词典特征,进一步优化情感分类性能。文献[16]考虑到标注大量语料人工耗费大,探索基于小规模标注语料,结合样本差异性、聚类代表性、和分类不确定性三种主动学习策略使用SVM模型进行维吾尔语句子的情感分类。文献[17]利用信息增益提取表达情感信息的组合词,将其作为特征项,输入朴素贝叶斯、逻辑回归、随机森林分类器进行情感倾向性分析。文献[18]总结词性搭配规则提取文本中具有相邻关系的两个单词作为Bi-tagged特征,运用支持向量机分类器对维吾尔语语料进行正、负二元分类。

nlc202212021116



  基于词典和机器学习相结合的方法,这类方法将二者相结合,弥补机器学习方法对语料领域的敏感性,以及词典方法对词典质量的高度依赖性。一些研究者将词典和标注语料相结合训练分类模型,一些研究者则先基于词典判断文本倾向性,然后根据分类结果生成新的情感分类器,再对前次的分类结果进行修改。文献[19]则采用第二种方法进行维吾尔语句子的情感分类研究。首先构建了包含情感短语、情感习语、否定词、程度副词、疑问词或词缀、感叹词、语气词的基础情感词典,在此基础上,利用中文情感词典HowNet、NTUSD、维汉双语词典扩充基础情感词典;其次基于情感词典对句子进行褒贬分类,通过设置阈值把语料分为classified group和uncertain group,与此同时,根据语言特点从语料中提取候选情感词,并以其在褒贬语句中的出现频次判断倾向性,实现对情感词典的迭代更新;然后把classified group作为训练语料,uncertain group作为测试语料,输入GNB、SVM等机器学习算法进行情感分类;最后结合词典分类结果和机器学习分类结果确定句子最终的褒贬类别。
  基于深度学习的方法,深度学习是相对于浅层机器学习而言的,通过模拟人脑机制进行复杂数据的解释,从无标注数据中自动学习词向量、提取特征、训练分类模型。文献[20]提出基于栈式自编码神经网络(SEA) 的维吾尔语语句情感倾向分析的方法,为更好表达文本语义,该方法将富含上下文信息的句向量和情感组合特征相融合。李冬白等人[21]探索运用深度学习方法对隐式情感进行分类,通过Word2Vec工具获取词语的向量表示,基于词向量构造句向量,再与词性向量融合,输入栈式自编码(SEA) 模型完成维吾尔语隐式情感分类器的训练和测试。王树恒[22]等人基于word embedding,运用双向LSTM深度学习算法构建维吾尔语情感分类模型,实验结果证明该模型的性能优于RNN、CNN等神经网络模型以及SVM等机器学习模型。文献[23]针对维吾尔语句子的情感五分类任务,提出一种基于deep belief nets(DBN) 的句子级情感分析方法,该方法首先通过对维吾尔语表达特点的分析研究,总结出情感词汇和句法结构两类情感特征;然后把富含词汇语义信息的word embedding特征和八项情感特征拼接结合;最后输入深度信念网络进行训练,完成情感倾向性分析任务。文献[24]提出了一种融合多种特征,结合注意力机制、双向长短记忆网络和CNN的维吾尔文情感分类方法。该方法在词向量表示层将词性向量、音节向量、位置向量与词向量拼接,然后输入BiLSTM层进行训练,训练结果作为注意力层的输入,注意力层的输出依次经过CNN层和情感计算层即可获得最终的情感分类结果。文献[25]将LDA主题概率模型和深度学习相结合进行维吾尔文情感二分类和五分类,实验结果表明该方法提高了情感分类性能。文献[26]提出基于注意力机制的BiRNN情感分类模型,该模型在词向量表示层将词向量、词性向量、韵律短语向量相融合,作为BiRNN网络层的输入,然后采用注意力层凸显韵律短语对情感分类的影响,提高情感倾向判别的准确率。
  2.2.2 维吾尔语句子的细粒度情感倾向分析
  句子的细粒度情感倾向性分析,旨在识别评论文本中涉及产品各属性的情感倾向。由于维吾尔语在情感分析领域的研究起步晚,现有的大部分研究主要集中在分析句子整w的情感类别,对于意见陈述细粒度级的情感分析研究还比较少。文献[27]提出了一种基于双层CRFs模型的细粒度意见挖掘维吾尔文情感分析方法。该方法使用词性、词干、程度副词、互信息特征描述文本,输入第一层CRFs模型识别语句中的主题词和意见词,将第一层的输出特征,以及动态意见词、否定成分输送到第二层CRFs模型,识别出意见陈述的情感倾向。
  3 结束语
  文本情感分析技术能够为舆情监控、民意调查、市场调研等众多工作提供参考,帮助相关部门发掘网民的真实想法及舆论倾向,快速准确采取针对性措施控制舆论、调整政策、改良产品。与中英文相比,维吾尔语的语言形态更为丰富、语法结构更加复杂,且维吾尔语标准语料库、语义词典等资源匮乏,致使针对中英文情感倾向性分析的一些技术不适合直接应用在维吾尔文中。本文参考维吾尔语情感分析研究的相关文献,从词语级、句子级两个层面对相关工作进行介绍,与中英文相比,相关研究在数量上还比较少,在深度上还比较浅,在范围上还比较窄。目前维吾尔文情感分析相关工作面临难度大、起步较晚的研究现状,因此维吾尔语文本情感分析还有很多研究空间和值得研究的课题。未来需要深入研究的问题主要有:(1) 构建文本情感分析的基础性资源,如建立标准维吾尔文本语料库,构建发布类似HowNet、WordNet等维吾尔语情感词典资源。(2) 现有的相关研究大部分集中在粗粒度层面,后续加强细粒度情感分析技术研究,精准识别对评价对象的具体情感态度。(3) 结合维吾尔语的语言特点,在维吾尔文自然语言处理领域开发新技术或新方法更好支撑文本情感分析研究工作。
  参考文献:
  [1]周立柱,贺宇凯,王建勇.情感分析研究综述[J].计算机应用,2008,28(11):2725-2728.
  [2] 姚天P,程希文,徐飞玉,等.文本意见挖掘综述[J].中文信息学报,2008,22(3):71-80.
  [3] 赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834-1848.
  [4] 陆文星,王燕飞.中文文本情感分析研究综述[J].计算机应用研究,2012,29(6):2014-2017.
  [5] 魏|,向阳,陈千.中文文本情感分析综述[J].计算机应用,2011,31(12):3321-3323.
  [6] 禹龙,田生伟,冯冠军.维吾尔语情感词汇自动识别[J].计算机工程,2011,37(7):213-215.

nlc202212021116



  [7] 年梅,范祖奎,刘若兰.维吾尔语褒贬情感词典构建研究[J].计算机工程与应用,2017,53(4):152-155,162.
  [8] 刘若兰,年梅,玛尔哈巴・艾赛提.基于连词的维吾尔语情感词库扩展研究[J].中文信息学报,2018,32(3):49-54.
  [9] 玛尔哈巴・艾赛提,艾孜尔古丽,玉素甫・艾白都拉.基于语法的维吾尔语情感词汇自动获取[J].中文信息学报,2017,31(1):126-132,139.
  [10] 黄俊,田生伟,禹龙,等.基于维吾尔语情感词的句子情感分析[J].计算机工程,2012,38(9):183-185.
  [11] 年梅,刘若兰,玛尔哈巴・艾赛提,等.加权维吾尔语句子倾向性分析[J].计算机系统应用,2016,25(7):171-175.
  [12] 田生ィ禹龙,王宇光.维吾尔语情感分类算法[J].计算机工程与应用,2011,47(36):147-150.
  [13] 罗亚伟,田生伟,禹龙,等.意见挖掘中维吾尔语文本隐式情感分析[J].计算机工程与设计,2014,35(9):3295-3300.
  [14] 热依莱木・帕尔哈提,孟祥涛,艾斯卡尔・艾木都拉.基于区分性关键词模型的维吾尔文本情感分类[J].计算机工程,2014,40(10):132-136,142.
  [15] 阿不都萨拉木・达吾提,于斯音・于苏普,艾斯卡尔・艾木都拉.类别区分词与情感词典相结合的维吾尔文句子情感分类[J].清华大学学报(自然科学版),2017,57(2):197-201.
  [16] 李响,吐尔根・依布拉音,卡哈尔江・阿比的热西提,等.基于主动学习的SVM维吾尔语情感分析研究[J].新疆大学学报(自然科学版),2015,32(4):447-452.
  [17] 伊尔夏提・吐尔贡,吾守尔・斯拉木,热西旦木・吐尔洪太.基于有监督分词方法的维吾尔文情感分析[J].计算机工程与设计,2017,38(11):3143-3146,3178.
  [18] 热西旦木・吐尔洪太,吾守尔・斯拉木.基于Bi-tagged特征的维吾尔文情感分类方法研究[J].中文信息学报,2018,32(8):80-90.
  [19] 热西旦木・吐尔洪太,吾守尔・斯拉木,伊尔夏提・吐尔贡.词典与机器学习方法相结合的维吾尔语文本情感分析[J].中文信息学报,2017,31(1):177-183,191.
  [20] 李敏,禹龙,田生伟,等.基于深度学习的维吾尔语语句情感倾向分析[J].计算机工程与设计,2016,37(8):2213-2217.
  [21] 李冬白,田生伟,禹龙,等.深度学习的维吾尔语语句隐式情感分类[J].计算机工程与设计,2016,37(9):2577-2581.
  [22] 王树恒,吐尔根・依布拉音,卡哈尔江・阿比的热西提,等.基于BLSTM的维吾尔语文本情感分析[J].计算机工程与设计,2017,38(10):2879-2886.
  [23] 衣马木艾山・阿布都力克木,李敏,李自臣,等.基于deep belief nets的维吾尔语句子级情感分析[J].计算机应用研究,2018,35(7):2066-2070.
  [24] 买买提阿依甫,吾守尔・斯拉木,艾斯卡尔・艾木都拉,杨文忠,等.基于多特征和深度神经网络的维吾尔文情感分类[J].计算机应用研究,2020,37(5):1368-1374,1379.
  [25] 买买提阿依甫,吾守尔・斯拉木,帕丽旦・木合塔尔,等.基于LDA与深度神经网络的维吾尔文情感分类[J].计算机仿真,2019,36(10):194-201,205.
  [26] 帕丽旦・木合塔尔,买买提阿依甫,杨文忠,等.基于BiRNN的维吾尔语情感韵律短语注意力模型[J].电子科技大学学报,2019,48(1):88-95.
  [27] 罗亚伟,田生伟,禹龙,等.细粒度意见挖掘中维吾尔语文本情感分析研究[J].中文信息学报,2016,30(1):140-147,169.
  【通联编辑:王力】

nlc202212021116




转载注明来源:https://www.xzbu.com/8/view-15442889.htm

相关文章