基于框架语义的在线医疗评论情感分析
来源:用户上传
作者:
摘 要:[目的/意义]随着“互联网+”在医疗服务行业的应用与发展,积累了大量的医疗评价信息,利用情感分析技术可以对其进行有效地挖掘和利用,从而为医疗管理提供决策参考。[方法/过程]基于框架语义理论建立医疗情感语义分类词典;采用词典和规则相结合的方法进行在线医疗评论的情感语义分析,标注情感类别、情感主题、极性和强度等信息。[结果/结论]通过在线医疗评论数据测试,验证了研究方法的有效性和科学性,是情感分析向医疗健康领域纵深发展的一次有益探索。
关键词:框架语义;情感分析;医疗信息;在线医疗评论
DOI:10.3969/j.issn.1008-0821.2020.03.011
〔中图分类号〕F713.5;G252 〔文献标识码〕A 〔文章编号〕1008-0821(2020)03-0111-06
Abstract:[Purpose/Significance]Since a lot of medical evaluation information is accumulated with the application and development of“Internet+”in the medical service industry,sentiment analysis technology can be used to mine and utilize it effectively,so as to provide reference for medical management.[Method/Process]A medical sentiment semantic classification dictionary was constructed based on the Frame Semantics theory.Based on the dictionary and some rules,the sentiment of online medical reviews was analyzed with annotation of sentiment type,sentiment topic,polarity and strength,etc.[Result/Conclusion]Through the test of online medical review data,a higher accuracy rate and recall rate were obtained,which proved the validity and scientificity of the research method.It is a useful exploration for the further development of emotional analysis in the field of medical health.
Key words:frame semantics;sentiment analysis;medical Information;medical online comments
隨着“互联网+”在医疗服务行业的应用与发展,积累了大量的医疗数据资源。不同于传统医疗服务中只有院方提供的医疗信息和问诊记录等,在线医疗服务环境下,还包含了大量由患者(用户)提供的反馈信息,它们以用户评价方式出现,以文本形式记录,包含了对医生服务、医术、治疗效果等方面的评价以及患者的体验、康复进程、感受、心理状态等。对这类信息的获取和处理,有助于全面、准确地评价医疗服务水平或评估患者心理状态。
目前国内外医疗评论挖掘的研究尚处起步阶段,处理任务主要集中在情感极性分类上,但是由于缺乏情感主题、情感对象和情感强度等信息,导致对文本情感语义的理解不完整。尤其是很多评论中既包含了对某些方面的正面评价又包含了对另外某些方面的负面评价,如评论句“苗医生医术挺好的,但是挂他的号太难了”,句中既表达了对医生医术的正面评价,又表达了对挂号的负面评价,这时试图确定整条评论的极性信息不仅是困难的而且是无价值的。因此,近年开始出现属性层面的情感分析:Hao H[1]利用中文在线评论数据,将主题设置为疗效、医疗技术、治疗过程、临床态度、寻医过程、并发症等,进行了患者情感分析;James T等[2]采用LDA聚类算法进行属性层的医疗服务质量评价研究;Cavalcanti D[3]、Salas-Zárate María del Pilar等[4]利用句法特征分别做了用药反馈和糖尿病患者评论的情感分析。
然而,目前医疗领域的情感分析主要基于关键词或浅层句法分析,虽然可计算性、可操作性强,但由于缺少词汇资源的有效组织和语义关联的描述,其完备性不足,处理精度不高,所提取信息的应用价值也有限。要实现医疗评论的语义分析,需要构建语义分类词典,对领域中的词汇进行合理的语义分类和极性标注。框架语义理论是美国语言学家Fillmore C J[5]提出的一种以框架(Frame)为单位描述词语意义以及句子语义结构的一种理论方法。框架是语言使用者在其认知经验中存储的关于词语和句子语义理解的图式化情境。目前,英语[6]、阿拉伯语、法语、日语、瑞典语乃至汉语[7]等的框架语义知识工程都已启动并不断发展。该类型语义资源在事件知识提取[8]、文本摘要[9]、机器翻译[10]等许多任务中都被证明具有较高的价值。在情感分析领域,Gangemi A等[11]、Chatterji S等[12]利用FrameNet挖掘框架和情感语义角色信息;由丽萍等[13-14]将框架语义分析用于手机商品评论和酒店评论的情感分析。在医疗情感分析领域,Bringay S等[15]采用框架语义体系,基于法语的在线健康论坛数据提取特定的语义角色——情感对象。这些研究显示了框架语义分析体系在情感分析任务中的应用价值,它既可以提供细分类的情感语义信息,又有助于准确识别情感词和情感主题之间的语义角色关系。 因此,本文基于框架语义理论,构建医疗评价领域专用语义分类词典,采用基于词典和规则的方法标注评论句的情感类别、情感主题、极性和强度等信息,从而实现在线医疗评论情感信息的语义理解。
1 研究设计
本研究包含资源建设和文本分析两方面任务:资源建设包括医疗领域框架语义词典的构建和语义标注规则的描述;文本分析任务主要包括医疗评论的采集、词法、句法处理和框架语义标注等过程。研究模型如图1所示。
2 医疗评价领域框架语义词典的构建
医疗评价领域框架语义词典的构建任务将表达相同情感范畴的词语归入同一框架类别进行描述,定义框架中的相关框架元素、框架关系等。
2.1 词汇收集
参考相关研究[14],以2018年3月5日为时间节点,从阿亮医生网(http://www.alyisheng.com/)和好大夫在线(https://www.haodf.com/)抓取时间最近的3 000多条用户评论数据,对其进行分词和词性标注,提取其中的形容词和动词作为初始集合;由项目组内成员人工筛选其中的情感词汇,对存疑词汇进行相关查证和商讨后确定最终结果;参考《现代汉语分类词典》、《新编同义词词林》等词典扩充同义词。
2.2 释义方法
框架语义分类词典定义框架、框架元素、框架—框架关系、词元(一个义项下的一个词)及其情感倾向值,具体的词汇释义工作流程和方法参考前期研究成果[16]。相较于简单的正负两极性情感倾向设置,我们参考相关研究[17]将词元情感倾向值的取值范围细化到0~1.0之间的浮点数,以综合体现极性和强度两方面信息。其中,低于0.5的数值表示负面评价,且数值越低,负面情感强度越大;0.5表示中性评价;高于0.5表示正面评价,且数值越高,正面情感的强度越大。采用语料标注的一致性检验法确定情感倾向值的具体取值:由3名相关专业研究生各自标注情感倾向值,对标注结果不一致的情况进行商讨,进入下一轮标注,直到最后取得一致为止。最终,我们构建的医疗情感语义词典包含129个框架,1 734个词元。经过对医疗领域情感词词频进行研究,发现医疗领域内的情感词汇在频率分布上较为集中,因此,对高频情感词的集中研究,能有效地解决大部分评论文本的情感分析。本文所构建的词典基本覆盖了医疗领域情感表达的常用词汇。选取其中具有代表性且框架元素、框架关系较丰富的框架[社交态度]示例如表1。
框架—框架关系主要描述框架之间的继承关系,为满足不同粒度的语义分析提供多层次的概念体系。与“社交态度”框架有关的继承关系如图2所示。
3 框架语义标注
3.1 情感语义表示模型
在线医疗评论情感分析的任务包括确定情感词所属的框架、识别情感主题以及计算情感倾向值,其形式化定义如下:
3.2 框架及情感主题标注
情感语义结构(式1)中的Fi(框架)可以通过定位句子中的动词和形容词,匹配框架语义词典而确定。情感语义结构中的Ei(情感主题)在语义角色关系上是核心框架元素的一类,即被评价者或被评价主题。其句法特征与依存句法结构(Tesniere L[18])有较强的对应规律,因此,采用基于依存句法规则的方法识别。框架和情感主题的匹配规则为:
式(2)中,LU为评论文本中的情感词,依据框架语义词典确定其对应的框架(frame)。由于医疗评论在表达方式上具有句式简短、主语省略甚至独词成句等特点,因此,式中除了情感词LU是必有成分外,其他主语和修饰语均为可选项,以“[]”表示。根据依存句法分析结果,若情感词支配一个主语成分(SBV),则该成分标注为情感主题类框架元素(theme);若情感词处于偏正结构中定语中心语(ATT-head)的位置,则标注为情感主题。符号表示两种情况是逻辑“异或”关系,即要么SBV为真,要么ATT-head为真,但不能二者同时為真。若依存句法结构中出现以程度副词做状语的成分(ADVd),则标注为框架元素“程度”(degree);若出现以否定副词做状语的成分(ADVn),标注其为“否定修饰”(negative),二者将作为情感倾向值的判定依据。程度副词子类和否定副词子类都依据《汉语语法信息词典》[19]而定。
3.3 情感倾向值的计算
情感倾向值(vi)以框架语义词典中词语的情感倾向值为基础,结合框架元素标注结果中的“程度”和“否定修饰”信息加以调节,得到最终的赋值。其中,对于情感值为0.5的情感词(即中性词)建立主题词调节量表,根据主题信息确定情感词的情感倾向值,如中性词“高”在评论句“费用高”中为0.4,而在“技术高”中则为“0.6”。对于情感倾向值不等于0.5的情感词,如果出现程度副词,则依据副词调节量表给予一定的调整,量表内容详见前期研究[13];如果评论句中出现否定修饰,则将程度值赋值为(1-原值)。赋值逻辑如图3所示。
3.4 实例分析
以两个医疗评论句“医生态度很不认真”、“负责的大夫”为例,其依存关系分别如图4和图5所示。
首先将形容词“认真”和动词“负责”匹配相应的框架,即[慎疏]和[责任心]。然后根据框架元素匹配规则,将主语(SBV)“医生态度”和定中结构的中心语(ATT-HED)“大夫”识别为情感主题;再根据副词和否定词表,将“很”识别为“程度”元素,将“不”识别为“否定修饰”。根据情感倾向值赋值规则,情感词“认真”的初始情感值为0.6,句中出现了程度修饰词“很”,其调节量为0.1,因此将情感倾向值+0.1,得0.7,又由于句中出现了否定修饰“不”,再用1减原值,因此输出的情感倾向值为0.3;情感词“负责”的初始情感值为0.6,无“程度”和“否定修饰”信息,因此输出的情感倾向值为0.6。最终,将情感语义元素填入式(1),结果为: 4 实验分析
4.1 数据来源
将词典和规则构建阶段使用的3 000条评论作为封闭测试数据,另外爬取2 000条评论作为开放测试数据,见表2。实验数据包含对医生工作、医疗服务系统、药品以及患者心理等多方面情感内容。
4.2 分析工具
实验中分词、词性标注和依存句法分析采用哈尔滨工业大学语言技术平台LTP[20]。框架语义分析采用自主研发的软件“基于框架本体的中文情感语义标注与查询系统”(软件著作权登记号:2018SR823004)。本软件系统采用Python语言开发,可以对中文情感词语和框架进行编辑和本体存储;对在线评论语句进行情感语义分析,标注框架、框架元素和情感倾向值等信息,支持模糊语义检索。使用界面如图6所示。
4.3 实验结果
采用准确率(Precision)、召回率(Recall)和F1值评价情感分析的性能。表3为实验结果。
由表3可以看出,封闭测试获得了较好的准确率和召回率;进入开放测试后,准确率影响不大,下降了约2个百分点,但召回率和F1值下降较多。
由于情感语义分析是在依存句法分析基础上进行的,依存句法分析又基于分词和词性标注,因此,这些自然语言处理技术带来的误差对情感语义分析会形成累积效应。为考查本研究所建词典和规则在语义分析阶段的效果,我们对分词、词性标注和依存句法分析做了人工校对:由3名相关专业研究生各自校对自然语言处理结果,对不一致的情况进行商讨,进入下一轮校对,直到最后取得一致为止。在修正了词法、句法处理结果后再次进行语义标注实验,结果如表4所示。
表4显示,修正词法、句法错误后,准确率和召回率均得到了明显提高,最终开放测试的F1值达到了85%,这对于医疗评论情感分析是比较理想的。可见自然语言词法和句法处理技术是制约情感语义分析的关键因素。
5 结 语
本文研究了基于框架语义的在线医疗评论的情感分析问题,该分析体系将情感信息表示细化到句子内部,提供了有效的情感语义分类体系和语义角色标注技术。其研究贡献一方面是构建了医疗评论领域的框架语义分类词典,为医疗评论的语义分析提供了实际可用的词汇知识资源;另一方面,采用基于框架语义分类词典和依存句法规则相结合的方法对医疗评论进行框架语义标注,实验结果显示该方法具有较高的准确率;同时通过对比实验,显示出自然语言词法和句法处理技术是影响情感语义分析效率的关键。本文的研究是情感分析向医疗健康领域纵深发展的一次有益探索。
参考文献
[1]Hao H.The Voice of Chinese Health Consumers:A Text Mining Approach to Web-Based Physician Reviews[J].Journal of Medical Internet Research,2016,18(5):e108.
[2]Cook,Deborah F,et al.Exploring Patient Perceptions of Healthcare Service Quality Through Analysis of Unstructured Feedback[J].Expert Systems with Applications,2017,(71):479-492.
[3]Cavalcanti D,Prudêncio R.Aspect-Based Opinion Mining in Drug Reviews[C]//EPIA 2017,Springer,2017:815-827.
[4]Salas-Zárate María del Pilar,Medina-Moreira José,Katty L O,et al.Sentiment Analysis on Tweets about Diabetes:An Aspect-Level Approach[J].Computational and Mathematical Methods in Medicine,2017:1-9.
[5]Fillmore C J.Frame Semantics and the Nature of Language[J].Annals of the NY Academy of Sciences,1976,280:20-32.
[6]University of California,Berkeley.FrameNet[DB/OL].https://framenet.icsi.berkeley.edu/fndrupal/,2018-08-03.
[7]由麗萍.面向中文信息处理的框架语义分析[M].北京:经济科学出版社,2013.
[8]Alam M,Recupero D R,Mongiovi M,et al.Event-Based Knowledge Reconciliation Using Frame Embeddings and Frame Similarity[J].Knowledge-Based Systems,2017,135(NOV):192-203.
[9]Xu H,Tao L,Zhirui H,et al.Text Summarization Using FrameNet-Based Semantic Graph Model[J].cientific Programming,2016:1-10.
[10]PeronCorrêa,Simone,Diniz A,Lara M,et al.FrameNet-Based Automatic Suggestion of Translation Equivalents.[C]//International Conference on Computational Processing of the Portuguese Language,2016:347-352. [11]Gangemi A,Presutti V,Reforgiato Recupero D.Frame-Based Detection of Opinion Holders and Topics:A Model and a Tool[J].IEEE Computational Intelligence Magazine,2014,9(1):20-30.
[12]Chatterji S,Varshney N,Rahul R K.Aspect-FrameNet:A FrameNet Extension for Analysis of Sentiments Around Product Aspects[J].Journal of Supercomputing,2016,73(3):1-12.
[13]由丽萍,王嘉敏.基于情感分析和VIKOR多屬性决策法的电子商务顾客满意感测度[J].情报学报,2015,34(10):1098-1110.
[14]由丽萍,白旭云.基于在线评论情感语义分析和TOPSIS法的酒店服务质量测量[J]情报科学,2017,35(10):13-17.
[15]Bringay S,Kergosien E,Pompidor P.Identifying the Targets of the Emotions Expressed in Health Forums[J].Lecture Notes in Computer Science,2014,8404:85-97.
[16]刘开瑛,由丽萍.现代汉语框架语义网[M].北京:科学出版社,2015.
[17]Sánchez-Rada,J Fernando,Iglesias C A.Onyx:A Linked Data Approach to Emotion Representation[J].Information Processing and Management,2016,52(1):99-114.
[18]Tesniere L.Elements De Syntaxe Structural[M].Paris:Klincksieck,1959.
[19]俞士汶,朱学锋,等.现代汉语语法信息词典详解(第2版)[M].北京:清华大学出版社,2003.
[20]Che W X,Li Z H,Liu T.LTP:A Chinese Language Technology Platform[C]//Proceedings of the Coling 2010:Demonstrations,2010:13-16.
(责任编辑:孙国雷)
转载注明来源:https://www.xzbu.com/4/view-15122425.htm