您好, 访客   登录/注册

突发事件网络舆情风险预警模型研究

来源:用户上传      作者:

  摘 要:增强突发事件研判、预警与快速响应能力,对加强网络舆情监管与引导,维护社会安全和稳定具有重要意义。首先基于网络舆情演化机制与特征建立科学、合理的指标体系;然后选取重要程度与分类性能均比较优异的末级指标作为特征属性,构造C4.5决策树风险预警模型;最后将突发事件网络舆情相关数据带入风险预警模型,得到预警风险等级。实验结果表明,该方法能够对突发事件网络舆情进行风险预警,预警准确率高达94.7%。
  关键词:突发事件;网络舆情;风险预警;C4.5决策树
  DOI:10. 11907/rjdk. 201053 开放科学(资源服务)标识码(OSID):
  中图分类号:TP301 文献标识码:A 文章编号:1672-7800(2020)007-0070-06
  Research on Risk Early Warning Model of Emergent Network Public Opinion
  XU Jian-guo,LIU Meng-fan,LIU Yong-hui
  (College of Computer Science and Engineering,Shandong University of Science and Technology,Qingdao 266590,China)
  Abstract: It is of great significance to strengthen the supervision and guidance of network public opinion and maintain social security and stability by strengthening the ability to judge, warn and respond quickly. First, a scientific and reasonable index system is  established based on the evolution mechanism and characteristics of network public opinion, and then the last-level indicators that have excellent importance and classification performance are selected as feature attributes to construct a C4.5 decision tree risk early warning model.Finally, the data related to the emergent network public opinion is brought into the risk early warning model to obtain the early warning risk level. The experimental results show that this method can give correct risk early warning to emergency public opinion, and the early warning accuracy rate is as high as 94.7%.
  Key Words: emergencies; network public opinion; risk warning; C4.5 decision tree
  0 引言
  突發事件,顾名思义就是指毫无征兆的突然发生,可能或者已经给社会造成不同程度的危害,需要相关部门采取应急处置措施予以应对。突发事件包含自然灾害、事故灾难、公共卫生和社会安全4类事件[1]。其中社会安全事件带有很强的随机性与突然性,具有引发突然性、目的明确性、瞬间聚众性、行为破坏性以及状态失衡性等特点[2],不仅造成巨大的人员伤亡和财产损失,而且给人们带来巨大的心理压力及一定程度的社会动荡,妨碍正常的工作与生活秩序,严重阻碍经济发展。
  社交网络[3]在给人们工作、生活带来极大便利的同时,也为突发事件充当传播媒介,促使突发事件得以更快速、广泛地传播与扩散,继而催生突发事件网络舆情风险。根据2019年中国互联网络信息中心发布的第43次《中国互联网络发展状况统计报告》,截至2018年12月,我国网民规模已达8.29亿[4],一旦某地发生突发事件,就会迅速传播与扩散,使原本局部、区域性问题发酵至全民热议的网络舆情热点事件,严重的甚至导致突发性群体事件。政府部门应对突发事件网络舆情的能力成为全社会普遍关注的焦点。由此可见,对突发事件迅速作出准确研判、制定相应的应急预案,对保障人民群众生命财产安全、维护社会稳定发展具有重要意义。
  1 相关工作
  本文以中国知网作为源数据库,将“突发事件” “网络舆情” “风险预警”等作为主题和关键词,检索近10年(2010-2019年)间发表在中文核心期刊及CSSCI期刊文献共330篇,通过Citespace可视化工具,构建突发事件网络舆情风险预警关键词共现图谱[5],如图1所示。
  突发事件网络舆情发生前的预防与预警是应对突发事件网络舆情重点。郝楠等[6]从舆情本体、舆情主体、舆情客体3个方面完善网络舆情预警指标体系,采取模糊综合评价方法实现网络舆情预警;兰月新等[7]将网络舆情生长周期从潜伏期、扩散前期、扩散后期和消退期4个阶段简化为潜伏期与扩散期两个阶段,采用基于K-means聚类和多项logistics分析等方法,构建网络舆情多维动态分类与预测模型;刘建准等[8]将情报介入体系融入突发事件应急管理的事前预警、事中控制与事后止损3个阶段,构建突发事件应急管理情报介入与融合模型,加快突发事件处理效率,提高准确性;次雨桐[9]创新性地在突发事件应急领域引入情报监督理念,这一举措对提高突发事件应急管理能力与决策水平具有重要意义。   以重大刑事案件、校园安全事件等为代表的社会安全事件,通常因人民内部矛盾引发,或因人民内部矛盾处理不当而累积、爆发[10],具有极大的社会复杂性。该类事件一旦在社交网络曝光,极易引发社会公众的情感共鸣,演化为网络舆情热点问题,继而转化为舆情危机。一旦导致群体性事件爆发,后果和危害难以估量。突发事件网络舆情演化要素关系如图2所示。
  本文主要针对突发事件中社会安全事件的网络舆情进行风险评估,构建预警模型,旨在加强政府对该类突发事件网络舆情的监管与引导,避免因舆情爆发导致经济损失、人员伤亡等社会问题。
  本文选取全球恐怖主义数据库(GTD)中近20年世界发生的恐怖袭击事件记录,先使用系统聚类寻找类间相似性统计量,再结合K-means聚类算法对其进行量化分级,从中寻找关键指标及划分标准,为构建突发事件网络舆情风险预警指标体系提供依据。结合上述量化分级标准与关键指标,建立并完善突发事件网络舆情风险预警指标体系,继而构建基于C4.5决策树算法的风险预警模型。
  2 网络舆情风险预警模型
  2.1 指标体系构建
  科学、合理的指标体系是构建突发事件网络舆情预警模型的基础和重要依据。通过分析网络舆情演化机制及其特征,从舆情主体属性、舆情受体(客体)属性、舆情的传播与扩散特性以及舆情信息特性4个维度构建指标体系[11],如表1所示。
  由表1可知,突发事件网络舆情主体属性包括事件要素和危害级别,事件要素包含事件类型、受害者类型、发生地区3个三级指标。通过对全球恐怖主义数据库(GTD)中1999-2018年(近20年)发生的全球范围内恐怖袭击事件记录数据,采用系统聚类方法进行处理,找到类与类间的相似性统计量作为危害级别的下一级关键指标,包括人员伤亡、财产损失、持续时间、袭击方式4个特征属性。舆情客体属性分为公众关注度、公众参与度、公众态度以及风险网民。其中,公众关注度通过累计浏览数量、累计转发数量和累计评论数量等计量;公众参与度通过参与话题的用户数量计量;公众态度分为公众情感倾向与情感转移;风险网民则包括利益诱导下影响舆论走势的网络水军和粉丝基础雄厚、言论可能产生较大影响的意见领袖。
  舆情传播与扩散特性由舆情来源与扩散程度两部分構成。舆情来源主要考虑权威性与准确性,扩散程度则以新闻网站数量、自媒体数量、论坛数量体现。
  舆情信息特性选择话题热度和内容特性两个二级指标。其中,话题热度通过用户对该话题词搜索程度获得;内容特性表现为内容敏感度、内容详细程度、内容真实性与全面性。
  2.2 指标赋值
  科学、准确实现末级指标量化及标准化,对整个指标体系的科学性、准确性以及后续风险预警模型的建立和应用具有十分重要的意义。末级指标包含连续型变量、无序分类变量及有序多态变量3种类型,如表2所示。考虑到不同类型变量之间存在较大差异,因此对上述3种指标类型的量化方法也各不相同。
  2.2.1 连续型变量赋值
  由表2可知,在众多末级指标中,人员伤亡、财产损失、持续时间、累计浏览数量、累计转发数量、累计评论数量、用户参与数量、网络水军、意见领袖、新闻网站数量、自媒体数量、论坛数量均属连续型变量,可利用网络爬虫技术爬取相关字段,或通过政府有关部门公布的数据报告等途径获取数据信息,最后根据实际收集到的数据分别对其赋值。
  2.2.2 无序分类变量赋值
  无序分类变量通常使用代码表示变量中包含的每一项类别,如事件类型包含5种类别,用1代表重大刑事案件,2代表恐怖袭击事件,3代表民族宗教突发群体事件,4代表校园安全事件,5代表其它社会安全事件。
  2.2.3 有序多态变量赋值
  来源权威性、准确性、内容真实性、全面性等指标均采取调研法,结合专家打分法获得定量值,从而对指标量化。某个话题搜索量随时间变化曲线如图3所示。
  搜索程度S用单位时间的搜索量表示,公式如下:
  内容详细程度可参考文字字数和视频音频时长进行判定和量化;内容敏感度属于定性指标,可通过设计开放式问卷结合专家打分法对其量化。
  2.3 指标权重计算
  本文选取定性与定量相结合的层次分析法计算指标权重。层次分析法是基于对指标体系中各项指标的相对重要性判断,首先对每一层级指标进行两两比较并用数字1~9进行标度[12],从而构造权重判断矩阵;然后对权重判断矩阵的每一列进行归一化处理,再对其完成一致性检验。若判断矩阵满足一致性检验要求,则认为判断矩阵的一致性可接受[13];否则,需要调整判断矩阵,直至其满足一致性检验要求为止。
  2.4 突发事件舆情风险预警模型构建
  决策树作为一种常用的机器学习分类或预测模型,具有可读性好、描述性强、有助于人工分析以及效率高等特点[14]。本文基于C4.5决策树算法构造突发事件网络舆情风险预警模型[15]。根据突发事件网络舆情诱发群体性事件的可能性大小以及对社会造成的影响,将社会安全事件网络舆情风险划分为5个等级作为决策树输出变量,见表3。
  突发事件网络舆情数据多为分类且非二值变量,为避免二叉树非0即1的绝对选项造成信息流失[16],本文选择的决策树形态为多叉树。同时,在相同预测精度条件下,多叉树的分裂次数通常少于二叉树,决策树判别次数大大减少,从而提高决策树生长效率[17]。
  指标体系末级指标涵盖较全面的特征属性,故决策树输入变量将指标体系分为主体属性、客体属性、传播与扩散特性及舆情信息特性4部分。考虑到网络舆情风险各个等级的数据记录数量满足近似正态分布的现实,本文多次对指标体系中的末级指标进行相应处理,如表4所示。
  为提高决策树学习效率,通常需要在决策树构造前进行特征选择,选取对训练数据具有分类能力的特征。通常使用信息增益率作为决策树分类模型特征选择准则[18]。   在决策树特征选择过程中,除信息增益率外,还要考虑指标权重对最终结果的影响,故构造决策树分裂属性的影响因子IF(Impact Factor)如下:
  其中,[wi,wij和wijk]分别表示一级指标、二级指标和末级指标权重,[1i,j,k4];[Gainrate]表示信息增益率;[λ,θ]为比例系数。
  在C4.5决策树算法中,将信源发出的信息记作[U(u1,][u2,?,ui,?,ur)],信宿收到的信息记为V,称E(U)为信息熵,表示信息发出前的先验概率,即
  当收到信息V=[vj]时,发出信号的概率分布为[P(U|vj)],则称[E(U|vj)]为信息发出的后验概率,即
  信息传输过程中由于受到噪声影响,通常用Gain(U,V)表示信息增益,反映信息传递过程中消除的不确定性大小。
  根据输入变量中任一属性用决策树进行分类时,需要用到“分裂”属性:
  通过“分裂”属性完成分裂后的样本集信息增益率为
  选择影响因子IF较大的属性作为分裂属性构造决策树。随着递归计算,被计算的属性影响因子会越来越小。
  C4.5决策树的剪枝算法采用PEP剪枝法,这是根据错误率判定子树是否需要修剪的一种自上而下的剪枝法[19]。若一棵子树包含L个叶子节点,设[ei]为子树中第i个叶子节点包含的错误分类样本数量,[ni]表示子树第i个叶子节点中样本的总数量,则该子树的误判率为
  将子树对样本进行分类后正确分类的样本记为0,错误分类的样本记为1,那么子树误判次数服从伯努利分布[19],从而求得其均值和标准差分别为
  将子树替换成叶子节点,代入式(8)、式(9),求得叶子节点误判次数的均值为[Errmeani],剪枝条件为
  满足上述条件时,用所得的叶子节点代替子树即完成剪枝操作。至此,C4.5决策树构建完成,即突发事件的网络舆情风险预警模型已成功构建。
  2.5 风险预警模型应用
  网络舆情风险预警模型将突发事件网络舆情风险分为5个等级[20],详见表3。
  当风险预警等级为一级时,表明该事件将对社会造成重度危害,此时必然引发较大規模的群体性事件,造成极大的经济损失和重大人员伤亡事故,需要引起政府高度重视。此时应采取危机管理预案,在采取措施引导并控制网络舆情发展走向的同时,还需部署警力与医护人员应对群体性事件,力求将损失与恶劣影响降至最低。
  当风险预警等级为二级时,将对社会产生中度危害,极有可能引发局部小规模群体事件,甚至可能造成较大规模群体性事件,需要政府进行严密监控并采取治理措施,引导并控制舆情发展,安抚网民情绪,避免群体性事件爆发。
  当风险预警为三级时,对社会危害程度为一般危害,存在引发舆情危机并激发群体性事件的可能性,但无必然性,此时政府应适度进行实时监测,避免因人工处置不及时带来大面积爆发,有序有效控制舆情发展。
  当风险预警为四级时,表明网络舆情在其发展演化过程中会对社会产生轻度危害,通常表现为网民在参与舆情讨论过程中出现恶评、谩骂等不文明现象,但导致舆情危机并激发群体性事件的可能性极小,无需干预,给予适当关注即可。
  当风险预警为五级时,表明网络舆情的演化发展阶段对社会不存在危害,无需加以干预。
  3 实证分析
  本文选取2018-2019年发生的几个典型社会安全事件引发的网络舆情作为研究对象进行实证分析,包括长春长生生物公司假疫苗事件、“7.14”香港暴力袭警事件以及知名网红“宇芽”自曝多次遭遇家暴的网络舆情热点事件。考虑到上述几个案例运用本文模型进行风险预警时处理方法一致,故选取“7.14”香港暴力袭警事件为例进行具体分析。
  3.1 “7.14”香港暴力袭警案例描述
  2019年7月14日,香港反对派和一些激进势力在中国香港沙田区借和平集会及游行活动之名,进行非法集结。他们破坏、堵塞道路,更有甚者使用砖头、石块、头盔以及不知名粉末等物品袭击警察、围殴警员,对香港警员及市民安全造成严重威胁。当晚,有13名香港警务人员受伤较严重,需住院接受治疗,该事件引起舆论高度关注。几天之后,在香港政府及警方明确发出反对通知书的情况下,仍有部分人多次举行非法集会闹事。这一行为彻底将公众早已郁积多日的愤怒情绪引爆,该事件受到各方持续关注,引发社会广泛讨论。
  3.2 风险预警模型应用
  3.2.1 风险预警指标权重计算
  对指标体系中一级指标构造判断矩阵如下:
  
  计算得到权重向量[W=(0.391,0.246,0.132,0.231)],[λmax=4.64],一致性比率CR=0.04<0.1,故判断矩阵A满足一致性要求。因此,指标体系中一级指标对应权重分别为0.391、0.246、0.132和0.231,二级指标和三级指标权重计算方法同上,此处不再赘述。最终得到风险预警指标体系的各级指标权重如表5所示。
  3.2.2 风险预警评估
  计算得到各级指标权重后,根据公式
  计算各指标对决策树分裂属性的影响因子IF(Impact Factor)大小,从而选择决策树的分裂属性,完成决策树构造过程。
  在“7.14”香港暴力袭警事件中,求得排名前12位的末级指标及相应的影响因子IF值如表6所示。
  选取IF值大于等于0.14的指标,即表6中排名前7的人员伤亡、搜索程度、用户参与数量、财产损失、内容真实性、浏览数量以及情感转移,依次作为决策树的分裂属性构造决策树,得到最终的风险预警结果。
  用上述方法与模型分别对长生生物公司假疫苗事件和网红“宇芽”自曝多次经历家暴事件进行风险预测,得到预警结果如表7所示。   对长生生物公司假疫苗事件、“7.14”香港暴力袭警事件以及网红“宇芽”自曝多次遭受家暴3个网络舆情热点事件,运用本文模型分别对其进行风险预警,从表7可知,上述事件风险预警等级分别为二级(中度危害)、一级(重度危害)以及二级(中度危害),模型预测结果符合实际情况。
  4 结语
  本文基于突发事件网络舆情危机预警需求,针对现有网络舆情预警方法准确率有限、针对性不强等问题[21],在深入研究社会安全事件特点及复杂性基础上,建立了针对社会安全类突发事件网络舆情的风险预警模型。在决策树构建过程中,结合指标体系与信息增益率共同作用下的影响因子寻找特征属性,构建C4.5决策树的风险预警模型。实验结果表明,本文模型对于社会安全类突发事件网络舆情风险预警更具针对性,准确率高达94.7%。迅速、准确的风险预警有助于相关部门了解舆情动态,掌握舆情演化趋势,及时、有效地采取措施控制与引导网络舆情,避免舆情过度发酵导致群体性事件发生。
  参考文献:
  [1] 翟劼. 微博突发事件网络舆情规律与预测方法研究[D]. 大连:大连理工大学,2016.
  [2] 赵满坤. 网络突发事件预警研究[D]. 天津:天津大学,2014.
  [3] ERIN M,ANDERSON GOODELL,RENEE M,et al. Risk and protective effects of social networks on alcohol use problems among Army Reserve and National Guard soldiers[J].  Addictive Behaviors,2020(103):1022-1034.
  [4] CNNIC. 第43次CNNIC中国互联网报告发布[J].  中国广播, 2019,18(4):14-16.
  [5] 李纲,巴志超. 共词分析过程中的若干问题研究[J]. 中国图书馆学报,2017,43(4):93-113.
  [6] 郝楠,冯晶,高媛. 基于模糊综合评价的网络舆情预警方法研究[J]. 重庆理工大学学报,2019,33(8):227-236.
  [7] 连芷萱,兰月新,夏一雪,等. 面向大数据的网络舆情多维动态分类与预测模型研究[J]. 情报杂志,2018,37(5):123-140.
  [8] 刘建准,唐霈雯,石密,等. 突发事件应急管理中情报介入与融合模型研究[J]. 图书情报工作,2019,63(18):78-86.
  [9] 次雨桐,李阳,李纲. 应急决策活动中的情报监督问题思考[J]. 情报杂志,2017,36(12):45-51.
  [10] 叶利明. 浅议新媒体环境下群体性事件中的信息传播[J]. 新闻世界,2014,13(3):186-187.
  [11] 高航,丁荣贵. 政府重大投资项目舆情风险预警指标体系研究[J]. 图书馆论坛,2014,34(7):28-33.
  [12] 张芳,薛欢义,白凤岭,等. 阜新市农产品物流配送中心选址问题研究[J]. 辽宁工程技术大学学报(社会科学版),2017,19(4):412-418.
  [13] WEI H L,LI T W,FAN M B,et al. Efficiency evaluation of DVL based on AHP and fuzzy integrated estimation[J]. Ship Elec tronic Eng ineering,2010(30):921-930.
  [14] 王宏志. 大数据分析原理与实践[M]. 北京:机械工业出版社,2017.
  [15] YE J,LI D  H .  Improvement and application of decision tree C4.5 algorithm[P].  DEStech Transactions on Computer Science and Engineering,2018.
  [16] 張丽丽,吕靖. 基于决策树的水上交通事故影响因素耦合分析[J]. 上海海事大学学报,2018,39(4):63-69.
  [17] 孙轶轩,邵春福,赵丹,等. 交通事故严重程度C5.0决策树预测模型[J]. 长安大学学报,2014,34(5):109-116.
  [18] 程华,李艳梅,罗谦,等. 基于决策树方法的到港航班延误预测问题研究[J]. 系统工程理论与实践,2014,13(34):239-247.
  [19] 周杨.  决策支持系统在物联网自动售货机上的应用研究[D]. 哈尔滨:哈尔滨工程大学,2018.
  [20] 呼雨,陈新杰,兰月新,等. 网络舆情监测及预警指标体系研究综述[J]. 情报探索,2012,11(11):7-10.
  [21] 张鹏,李昊青,兰月新,等. 基于BP神经网络的突发事件网络谣言危机预警[J]. 电子政务,2016,15(11):40-47.
  (责任编辑:杜能钢)
转载注明来源:https://www.xzbu.com/8/view-15286068.htm