您好, 访客   登录/注册

基于机器学习的政务微博评论情感分类研究

来源:用户上传      作者:魏姮清

  摘 要:微博因其信息传播快、交互性强成为公众参与民主政治讨论的新渠道;各级政府纷纷通过开设政务微博加深与民众之间的交流。对政务微博的评论数据进行情感分析,及时掌握公众对热点舆情事件的情感倾向,能提升政民交互水平,也能在互联网环境下有效改善政府服务质量。在Word2vec构建词向量的基础上,运用SVM和RF对文本进行情感分析。实验表明,SVM在进行政务微博评论分类具有更高的分类效能。
  关键词:机器学习;政务微博;情感分析
  中图分类号:D9 文献标识码:A doi:10.19311/j.cnki.1672-3198.2020.11.079
  0 引言
  政务微博是指政府在互联网上开设的用于开展政务活动的微博。第43次《中国互联网络发展状况统计报告》中数据表明:截至2018年12月中国网民规模达8.29亿,互联网普及率达到59.6%,3.94亿网民使用线上政务办事,占整体网民的47.5%。网络问政时代下,政务微博因其实时性、便捷性、交互性等特点,成为政务机构实践政务管理的主要媒介和公众获取信息和表达意见的重要平台。
  通过对政务微博的评论数据进行情感分析,了解公众在热点话题中的情感倾向,掌握公众观点和微博舆论的发展趋势,有利于提升政民交互水平。本文研究不同的分类器对公众参与政务微博的在线评论文本情感分类的准确率,以便政务微博在热点舆情事件中掌握公众的情感倾向。
  1 相关技术
  1.1 Word2vec
  利用Word2vec分布式的詞向量训练方法,将词汇以向量形式展现出来,从而达到将目标文本用于向量运算的目的,然后更好地完成情感分析的任务。
  1.2 SVM
  支持向量机是一种基于统计学习理论的机器学习方法,广泛应用于许多领域。基于SVM的分类方法主要用于二元模式分类问题。经SVM分类后,属于不同类数据集中的点正好位于一个最优超平面的不同侧面,而且训练集中的正例点和负例点间的边距(margin)最大化,使得两类的分类间隔最大。
  1.3 RF
  随机森林算法首先需要在训练集中随机选择一个子集,再根据决策树算法构造子集分类器。决策树分类器的数量K需要在运行前指定生成,然后确定子集的数量。
  2 用户评论情感分析
  2.1 微博数据采集
  由于政务微博下的评论具有明显的情感倾向,故本文针对政务微博,基于Python网络爬虫技术获取了2019年受到广泛关注的热点舆情事件下“@中国警方在线”“@中国警察网”“@平安洛阳”“@平安北京”等政务微博下的评论信息,在完整的URL请求发送后,利用Lxml对网页信息进行解析,获取在重大舆情事件下政务微博的回复、留言等评论信息,并以此为基础进行情感分类研究。
  2.2 数据预处理
  2.2.1 数据清洗
  在微博的评论中存在一些网络链接、在博主发文下方@其他的明星或者网友以及“转发微博”“转发图片”等,对情感分析的结果会产生干扰,予以删除。
  2.2.2 数据集和人工标注
  经数据清洗后,得到9395条微博评论,包括4869条正向评论,4526条负向评论,部分数据如表1。语料库中随机选取80%作为训练集,20%作为测试,用于政务微博情感分类模型的构建,语料分布情况如表2所示。
  2.2.3 对评论文本进行分词和去停用词处理
  在文本中使用频率很高,但不具有检索意义、不能表达文本中心思想的词语即为停用词。本文利用哈工大停用词表,在利用结巴分词处理时,将得到的结果与停用词匹配,若匹配成功,就将这个词去掉,否则就保留下来。经去停用词后的部分评论文本分词后的结果如表3。
  2.3 基于Word2vec的词向量训练
  在进行Word2vec的评论文本向量表达时,Skip-gram模型的性能在判定词语间的语义关系时的表现比CBOW模型更好,因此采用Skip-gram模型对词库进行向量表达,并转化成特征向量的格式。步骤如下:
  (1)对于上下文窗口的取值,实验中将窗口值设定为5。
  (2)基于精确度的考虑,词向量维度选择300。例如:“可怕”的词向量如图1所示。
  (3)在大规模语料库中训练出合适的词向量的基础上,评论文本本身的特征向量由对每条微博评论文本中所有词语的词向量累加后求平均得到。
  2.4 情感模型分析与训练
  2.4.1 分类模型评价指标
  为了对两种不同的分类方法进行比较,首先确定模型的评价指标。在本文中,微博评论情感极性分析为二分类问题,模型评价指标需要考虑正向和负向两个方面的模型效果,考虑训练模型不同预测结果的数量如表4。
  
  查准率、召回率、F1值和准确率四种评价指标是数据挖掘任务中常用的模型评价标准。下面对这四种评价标准进行详细介绍:
  准确率(Accuracy)表示训练模型对样本的分类性能,公式如(1):
  查准率(Precision)表示某一类别中训练模型预测数量占实际数量的比例,公式如(2):
  召回率(Recall)表示某一类别中训练模型预测数量占该类别实际记录数量的比例。公式如(3):
  统计学领域,F1值(F-core)是对二分类模型的精度进行衡量的一种评价标准,该指标兼具准确率与召回率的特点,F1值在0至1之间,对模型评价效果良好。例如对于正面情感,计算公式如(4):
  2.4.2 政务微博评论情感分类结果
  (1)支持向量机情感分类模型。
  应用上文建立的训练数据集,采用Python平台下的sklearn算法模块实现支持向量机模型,测试数据集预测后的结果分布情况如表5所示。   
  根据SVM模型的预测结果,应用上文中设定的准确率、查准率、召回率和F1评分值公式,可以得到基于SVM模型的微博评论情感极性分类模型的评估情况。
  
  (2)随机森林情感分类模型。
  应用上文建立的训练数据集,采用sklearn算法模块实现随机森林模型,该模型函数在Decision Tree Classifier类下,部分模型参数按照系统默认值处理,对测试数据集预测后的结果分布情况如表7所示。
  基于RF模型的微博评论情感极性分类结果如表8所示。
  3 结语
  从评估结果的对比可以发现,SVM算法与RF算法相比,SVM方法各项指标的结果评估值均优于RF,见表6与表8比较。因此,Word2vec与SVM相结合情感分析模型,能更准确的判断政务微博评论的情感倾向。在热点舆情事件中,政府管理部门可利用这些半结构化或非结构化数据,对其加以利用掌握相关的舆情态势以支持政府决策。
  参考文献
  [1]陈婷,陈文春.基于用户体验的便民类政务微博质量提升策略[J].管理观察,2019,(02):92-94,97.
  [2]汪祖柱,阮振秋.基于关联规则的政务微博公众评论观点挖掘[J].情报科学,2017,35(08):19-22.
  [3]王宇澄,薛可,何佳.政务微博议程设置对受众城市形象认知影响的研究——以微博“上海发布”为例[J].电子政务,2018,(06):55-62.
  [4]牛雪莹,赵恩莹.基于Word2Vec的微博文本分类研究[J].计算机系统应用,2019,28(08):256-261.
  [5]Li S, Wang Z, Zhou G, et al. Semi-Supervised Learning for Imbalanced Sentiment Classification[C]. Proceedings of International Joint Conference on Artificial Intelligence,2011:1826-1831.
  [6]Liu S, Li F, Li F, et al. Adaptive co-training SVM for sentiment classification on tweets[C]. ACM International Conference on Information & Knowledge Management. ACM,2013:2079-2088.
  [7]陳珂,黎树俊,谢博.基于半监督学习的微博情感分析[J].计算机与数字工程,2018,46(09):1850-1855.
  [8]彭陶.基于微博的情感倾向分析系统的研究与实现[D].北京:北京邮电大学,2016.
  作者简介:魏姮清(1995-),女,汉族,湖北宜昌人,硕士,武汉理工大学,研究方向:信息管理与信息系统。
转载注明来源:https://www.xzbu.com/2/view-15185798.htm