面向微博谣言关注度的大数据时序特性分析

> 中国论文网 >
科技论文 >
面向微博谣言关注度的大数据时序特性分析

面向微博谣言关注度的大数据时序特性分析

来源:用户上传作者:

　　摘要：近年來，微博谣言因其传播速度快、扩散范围广、影响后果严重引起了公众广泛关注。网民对于微博谣言关注度程度随时间变化，关注侧重点漂移客观反映了微博谣言治理效果。因此，研究微博谣言关注度具有重要价值。以新浪微指数平台为大数据分析源，通过时序特性分析方法深度挖掘近5年网民对微博谣言关注度的时序特征。研究发现，微博谣言关注度时序是一个无明显趋势和周期的时间序列。5年中序列最大峰值出现时间与两高院出台惩治网络谣言相关《解释》的时间吻合; ARMA（1，2）模型可较好地拟合微博谣言关注度序列;手机端谣言关注度数量约为电脑端谣言关注度数量的2.8倍，前者是后者的格兰杰原因，且前者对后者的影响力为持续一周逐渐减小的正面冲击效应;网民关注的微博谣言热门信息主要集中于谣言惩罚的相关政策、重大突发事件中的媒体辟谣、明星向造谣者追究法律责任以及安全问题相关的辟谣榜4个方面。研究结果有助于掌握微博谣言关注度时序规律，从而为有效制定微博谣言抑制策略提供可靠依据。
　　关键词：微博;谣言关注度;时序特性
　　DOI：10. 11907/rjdk. 191653 开放科学（资源服务）标识码（OSID）：
　　中图分类号：TP391 文献标识码：A 文章编号：1672-7800（2020）003-0194-06
　　Analysis of Big Data Time-series Properties Characteristics
　　for Microblog Rumor Confrontation
　　WU Yue，XIAO Rong
　　（College of Computer and Software Engineering， Xihua University， Chengdu 610039， China）
　　Abstract：Studying the relevant theories， techniques， and methods of microblog rumors confrontation is of great practical significance for maintaining social stability， national unity， and building a clear network environment. At present， the research in the field of rumors confrontation mainly focuses on the construction of microblog rumors suppression model and the simulation calculation of confrontation rules， however， the in-depth research on the true data of microblog rumors confrontation is very scarce. In this regard， the Sina micro-indicator platform is used as the source of big data analysis， and the time series feature analysis method is used to deeply mine the temporal characteristics of microblog rumors countermeasure data in the past five years. The study found that the time series of microblog rumors confrontation is a stable time series， with no obvious trends and cycles. The maximum peak of the sequence in 5 years coincides with the launch of the Explanation related to the two superior prosecutors. The ARMA（1，2） model can well fit the microblog rumors confrontation sequence. The number of rumors confrontation on mobile phones is about 2.8 times that on computers. The former is the Granger cause of the latter， and the influence of the former on the latter is a positive impact effect that gradually decreases for a week. The microblog rumors confrontation that netizens focus on includes four aspects， such as policies related to rumors confrontation， official denial in major emergencies， cognizance of legal responsibilities of celebrities to rumor mongers， and rumor lists related to security issues. The research results will help us to grasp the rules of microblog rumors confrontation series， and thus provide a reliable basis for developing the microblog rumors suppression strategies effectively. 　　Key Words： Microblog; rumors confrontation; time-series properties
　　0 引言
　　在新媒体平台诞生之前，谣言的经典定義是 “与当时事件相关联的命题，是为了使人相信，一般以口传媒介的方式在人们之间流传，但是却缺乏具体的资料以证实其确切性的命题”[1]。从该定义可以看出，以前谣言主要依靠口头传播。在新媒体平台兴起之后，谣言的传播形式发生了明显变化，从简单的口传转变为依托新媒介传播的复杂形式。谣言传播形式的转变导致传播速度急速提升、传播范围显著扩大。面对网络谣言传播新形式，如果不能尽早制定有效抑制谣言关注度的方案，很容易引发难以控制的失稳局面。因此，新媒体平台网络谣言对抗问题成为网络信息时代维稳工作亟需解决的关键性问题。
　　目前，有关网络谣言关注度方案很多，主要集中于法规制定与关注度策略仿真模拟。我国法规制定方已形成一套相对完整的网络谣言对抗体系，涉及宪法、刑法、民法、行政法及司法解释。其中，《宪法》第五十一条规定公民在行使自身自由和权力时，不得损害国家、社会、集体利益和其他公民的合法自由和权利。这在根本上明确了言论自由的边界是不能损害其他主体的合法自由和权利，为下位法中网络谣言的规章制定奠定了基础[2];2013年出台的《最高人民法院、最高人民检察院关于办理利用信息网络实施诽谤等刑事案件适用法律若干问题的解释》第五条第二款规定，对“编造虚假信息，或者明知是编造的虚假信息，在信息网络上散布，或者组织、指使他人在信息网络上散布，起哄闹事，造成公共秩序严重混乱的”，将依法“以寻衅滋事罪定罪处罚”[3];2015年11月1日起施行的《刑法修正案（九）》在第二百九十一条之后新增了“编造、传播虚假信息罪”[4]。除此之外，涉及网络谣言关注度的法律法规还包括《民法总则》、《网络安全法》、《计算机信息网络国际联网安全保护管理办法》、《电信条例》、《互联网文化管理暂行规定》等。从中可以看出，我国关于网络谣言对抗的“法网”正在不断完善。
　　在网络谣言对抗策略仿真模拟方面，研究重点主要集中于对抗策略发布时间、对应网络结构、实施对象属性特征及自身信任度4个研究热点：①基于信息的发布时间。Wang[5]发现尽早发布辟谣信息，谣言传播控制得越好，万贻平[6]的仿真实验也得出相同结论;② 基于网络的拓扑结构。Jiang[7]研究发现，网络结构特性决定了应该使用哪一种谣言对抗策略。王长春[8]构建了基于复杂网络的谣言传播模型，其仿真结果表明，群体是否倾向于相信谣言，不仅与网络平均度有关，而且与网络其它参数如网络平局路径长度、聚类系数有关。Mehta[9]利用网络拓扑结构设计了一种利用邻居结点中心性关注度谣言传播的方法，该方法可以通过分布式计算网络局部信息，确定面向全局网络的谣言免疫释放点，从而提升谣言抑制策略实施效率;③基于对抗策略实施对象的属性特征。顾亦然[10]提出一个有效的网络谣言对抗策略——重要熟人免疫策略，其仿真结果表明，重要熟人免疫策略在不需要知道网络全局结构和缩减计算量的同时，可达到目标免疫的谣言抑制结果。王筱莉[11]研究了遗忘率随时间变化的谣言传播模型，发现遗忘率对谣言传播的最终规模有重要影响，初始遗忘率越大或遗忘速度越大，谣言最终传播规律越小。万贻平[6]分析了目标免疫和熟人免疫等传统谣言对抗策略的不足，提出主动免疫和被动免疫两种网络策略，其实验结果显示，在主动免疫中，清除者遗忘率越低，谣言影响越小，而在被动免疫中，传播者遗忘率则对谣言传播产生分段影响。Jiang[7]提出了一个具有免疫结构的SIR模型用于研究谣言关注度方法，其研究结果显示，针对可疑个体实施谣言免疫策略，可以有效控制谣言传播。Zhao[12]在设计谣言传播模型时考虑了谣言拒绝率关注度机制，其仿真结果表明，增加无知者对谣言的拒绝率的做法比增加传播者对谣言拒绝率有更好效果，可有效降低谣言传播密度;④基于信任度。Zhao[12]通过一系列仿真实验评估个体-个体的谣言传播控制，以及媒体-个体的谣言传播控制，结果表明，政府发布信息的数量对于谣言传播具有巨大影响。政府公信力与民众认知能力非常重要，当少数人被惩罚时，谣言抑制效果非常显著。Xu[13]在SEIR谣言传播模型中引入了信任机制，仿真结果显示，信任机制能够有效地降低谣言影响力和传播范围。Xia[14]在谣言传播模型SIAR的构建过程中考虑了权威信息信任度问题，仿真结果表明，权威信息发布越快，谣言负面影响越小。Wang[15]构建了一个新的SIR模型，比较全面地研究了谣言对抗策略的效果，其研究发现，谣言对抗策略的效果与实施对象、辟谣内容和弛豫时间均有关联。对无知者实施谣言免疫策略可有效抑制谣言传播，谣言传播的弛豫时间越短、辟谣信息可信度越高，谣言抑制效果则越好。
　　尽管目前已出台许多网络谣言对抗的法律法规，也不断涌现出大量网络谣言对抗策略的模型构建和仿真计算研究，然而，对抗效果如何，真实网络环境中网民对谣言关注度是否有所改变，网民关注点集中在哪些方面等一系列反馈信息的相关研究非常匮乏。其主要原因有两点：一是由于不同新媒体平台上的网络谣言关注度存在极大差异，难以寻找到一个合适的切入点进行深入研究;二是面向海量的网络谣言关注度大数据，如何做到实时有效的大数据获取，以及长期的大数据统计分析是一大难题。
　　针对第一个如何在不同新媒体平台上寻找切入点的问题，近3年已有相关报道作出了解答。2015年6月24日，中国社科院新闻与传播研究所在北京发布的《新媒体蓝皮书》调查显示，近六成假新闻首发于微博[16]，说明微博平台首发谣言数量占比最大。2017年12月21日，《人民日报》报道，检索2017年“辟谣”相关的谣言关注度数据，发现相关微博399 293条，微信234 750篇，APP推送81 871篇，论坛文章66 884篇，博客19 967篇，报刊文章10 982篇[17]。这些数据进一步说明微博谣言关注度目前已经成为新媒体平台谣言关注度的主战场。基于微博在谣言关注度中的重要性，本研究选取微博谣言关注度大数据分析作为问题切入点。针对大数据获取问题，通常解决办法是调用微博提供的API接口或编写爬虫代码采集微博数据。然而，面向实时更新的微博大数据，这两种方法均存在采集数据不及时、不完整的问题。目前有一种更好的解决办法，即利用“微指数”[18]工具获取微博大数据。“微指数”是由中国最大的微博平台“新浪”提供的数据分析工具，该工具能够提取指定时间内关键词在微博的热议度，避免了研究者自行采集微博数据时遇到的问题。　　基于以上两点，本文以微博谣言关注度大数据为研究对象，利用新浪“微指数”工具获取5年微博谣言关注度时间序列。进一步通过时序特性分析方法研究微博谣言关注度时间序列的总体统计特征、时序拟合模型、手机端与电脑端的微博谣言关注度关联，以及网民关注的微博谣言焦点内容。
　　1 微博谣言关注度时序总体特性分析
　　以“谣言”为关键词，利用新浪“微指数”工具获取2013年3月1日至2018年2月28日5年的谣言关注度大数据，在此基础上，利用EViews工具[19]进行时序特性分析。
　　1.1 以天为时间粒度的微博谣言关注度时序
　　以天为时间单位，统计近5年的微博谣言关注度时间序列，如图1所示。从图1中可以看出，微博谣言关注度数量每天均有变化，但近5年数量超过10万/天的并不多，主要出现于2013年。
　　进一步分析其时序直方图和统计量（见图2），从直方图可以看出，微博谣言关注度低于2万条/天的占比约2/3。从统计量可以看出，近5年，平均每天的微博谣言关注度超过2万条，最多的一天超过了50万条，最少的一天仅2 198条，微博谣言关注度数量日均差异较大。
　　1.2 以月為时间粒度的微博谣言关注度时序
　　为了从时序中发现统计规律，进一步地以月为时间单位，统计近五年的微博谣言关注度时间序列，如图3所示（彩图扫描OSID码可见）。图3中的蓝色曲线表示真实微博数据，红色曲线则为EViews软件自动生成的时序趋势曲线。从图3可以看出，近5年的微博谣言关注度数量总体上呈现先快速上升再快速回落至一个平稳的状态，时序于2013年第3季度达到峰值。分析其原因，主要是由于2013年9月两高院公布了《最高人民法院、最高人民检察院关于办理利用信息网络实施诽谤等刑事案件适用法律若干问题的解释》，明确了网络谣言在什么情况下构成犯罪。从中可以看出该司法解释对网民行为产生了极大影响。
　　图4展示了以月为时间单位的微博谣言关注度时序直方图和统计量。从直方图可以看出，微博谣言关注度大部分均小于50万/月。从统计量可以看出，近5年，平均每月微博谣言关注度超过6万条/月，最多一个月超过了300万条/月，最少一个月也超过24万条/月，数量巨大。
　　进一步对以月为时间单位的微博谣言关注度时序进行时序平稳性检测，结果如表1所示。从表1的ADF检验结果可以看出，单位根统计量ADF=-18.156 28，小于显著性水平1%的ADF临界值，所以拒绝原假设。因此，以月为时间单位的微博谣言关注度时间序列是平稳的。
　　2 微博谣言关注度时序拟合模型
　　为实现根据微博谣言关注度时序历史数据，预测其发展趋势，对时序数据进行拟合。通过不同模型的结果对比，最终选择ARMA（1，2）模型。表2显示了ARMA（1，2）模型的估计结果，其模型方程为：
　　ARMA（1，2）模型拟合如图5所示，可以看出ARMA（1，2）模型能较好地拟合微博谣言关注度时序。
　　对ARMA（1，2）模型残差序列进行白噪声检验，结果如表3所示。从表3中可以看出ACF和PACF都没有显著异于零，Q统计量的P值远大于0.05，因此可以认为残差序列为白噪声序列，模型信息提取比较充分。虽然可对同一个平稳序列建立多个适合模型，但比较AIC和SC的值，以及综合考虑其它检验统计量，考虑模型的简约原则，认为ARMA（1，2）模型是较优选择。
　　3 手机端与电脑端微博谣言关注度关联
　　从客户端操作平台的角度可将微博谣言关注度分为两种类型，基于手机端的谣言关注度和基于电脑端的谣言关注度。由于“微指数”工具只能获取近4年的手机端和电脑端数据，以下关于手机端和电脑端的分析均以2014-2018年的数据作为数据源。
　　3.1 手机端和电脑端谣言关注度微博数量比较
　　从图6可以看出，手机端较电脑端微博谣言关注度数量明显更多。通过计算发现，前者总量约为后者的2.8倍。说明目前网络谣言关注媒介主要依托于手机端。为了深入研究两者之间的关系，绘制了如图7所示的散点图。从散点图中可以看出，虽然存在一些离群值偏离大多数点，但从总体上看，手机上的谣言关注度与电脑端的谣言关注度总体呈现正相关关系。
　　3.2 手机端和电脑端微博谣言关注度时序的格兰杰因果关系检验
　　为检验手机端和电脑端微博谣言关注度之间的先后顺序，分析是否一个变量的前期信息影响了另一个变量的当期信息，进行格兰杰因果关系检验，如表4所示。可以看出，电脑端微博谣言关注度数量不是手机端微博谣言关注度数量的格兰杰原因，相伴概率是0.235 4，说明在5%的显著性水平上原假设成立;而手机端微博谣言关注度数量不是电脑端微博谣言关注度数量的格兰杰原因，相伴概率是3.E-07，说明在5%的显著性水平上原假设不成立，即手机端微博谣言关注度是电脑端微博谣言关注度的格兰杰原因。
　　3.3 脉冲响应
　　进一步通过手机端微博谣言关注度时序与电脑端微博谣言关注度时序的脉冲响应结果，分析两者之间的相互影响关系，如图8所示。由图8（a）可以看出，手机端微博谣言关注度对来自自身的一个标准差新息脉冲响应在第1天达到最大值，之后逐步衰减，在第7天响应趋近为零。而手机端微博谣言关注度对来自电脑端微博谣言关注度数量的一个标准差新息脉冲响应几乎为零，这意味着电脑端微博谣言关注度对手机端微博谣言关注度影响非常小，可以忽略不计。结合格兰杰因果关系，分析其主要原因是因为通常情况下，手机端谣言关注较电脑端出现更早。因此，电脑端对手机端微博谣言关注度影响小。而从图8（b）可以看出，手机端微博谣言关注度对来自电脑端微博谣言关注度数的一个标准差新息脉冲响应却很大，手机端对电脑端的影响力为持续减小的正面冲击效应，影响力持续一周时间。
　　4 热门微博谣言焦点内容　　从近5年的微博谣言关注信息中，选取最热门的10条数据进行分析，如表5所示。从表5中可以看出，引起网民高度关注的微博谣言关注度信息包括：地震、爆炸等重大突发事件引发的谣言与辟谣信息、传谣者受到法律制裁的信息、明星受到谣言中伤追究传谣者法律责任的信息以及安全问题相关的辟谣榜信息。
　　5 结语
　　本文借助新浪“微指数”工具，获取近5年微博谣言关注度数据，并通过时序特性分析方法挖掘其统计特征。统计分析结果表明：①以月为时间粒度，以微博关注度数量为可观测变量的微博谣言关注度时序是一个没有明显变化趋势和周期的平稳序列。近5年时序峰值出现的时间正好是《最高人民法院、最高人民检察院关于办理利用信息网络实施诽谤等刑事案件适用法律若干问题的解释》的出台时间，说明该文件对于谣言关注度产生了巨大影响;②由于时序为平稳非白噪声序列，采用Box-Jenkins方法建模，得到ARMA（1，2）模型，较好地拟合了微博谣言关注度时序;③手机端的微博谣言关注度总量约为电脑端的2.8倍。此外，手机端微博谣言关注度数量是电脑端微博谣言关注度数量的格兰杰原因，手机端对电脑端的影响力为持续减小的正面冲击效应，影响力持续一周。说明手机端较电脑端的微博谣言关注度影响力更大且更提前;④网民关注的微博谣言关注度热门信息主要集中于4个方面：谣言关注度的相关政策、重大突发事件中的媒体辟谣、明星向造谣者追究法律责任及安全问题相关的辟谣榜。
　　微博是目前网络谣言的主战场，同时网络谣言关注度平台还有很多内容亟待挖掘，针对不同平台的网络谣言关注度时序特性分析与比较是下一步研究的主要内容。
　　参考文献：
　　[1]卡普费雷. 谣言[M]. 郑若麟、边芹，译. 上海：上海人民出版社，1991.
　　[2]梁思雨. 《网络安全法》视域下的网域谣言治理[J]. 信息安全研究，2017，3：1091.
　　[3]最高人民法院. 《关于办理利用信息网络实施诽谤等刑事案件适用法律若干问题的解释》的理解与适用[EB/OL]. http：//www.court.gov.cn/shenpan-xiangqing-5913.html.
　　[4]杨柳. 细化犯罪规定维护网络安全——《中华人民共和国刑法修正案（九）》中对网络犯罪规定的细化[J]. 中国信息安全，2015，（9）：109. DOI：10.3969/j.issn.1674-7844.2015.09.035.
　　[5]WANG Y Q，YANG X Y，WANG J. 基于复杂网络理论的微博用户关系网络演化模型研究[J]. 物理学报，2014，（20）：1-7.
　　[6]万贻平，张东戈，任清辉. 考虑谣言清除过程的网络谣言传播与抑制[J]. 物理学报，2015，64（24）：73-83.
　　[7]JIANG P，YAN X B. Stability analysis and control models for rumor spreading in online social networks[J]. International Journal of Modern Physics C，2017，28（5）.
　　[8]王长春，陈超. 基于复杂网络的谣言传播模型[J]. 系统工程理论与实践，2012， 32（1）： 203-210.
　　[9]MEHTA A，MUKHOTY B，GUPTA R. The Heider balance and social distance[J]. Acta Physica Polonica B. 2016 ，47：6-7.
　　[10]顧亦然，夏玲玲. 在线社交网络中谣言的传播与抑制[J]. 物理学报，2012，61（23）：544-550.
　　[11]王筱莉，赵来军，谢婉林. 无标度网络中遗忘率变化的谣言传播模型研究[J]. 系统工程理论与实践， 2015， 35（2）： 458-465.
　　[12]ZHAO X X，WANG J Z. Dynamical behaviors of rumor spreading model with control measures[J]. Abstract and Applied Analysis， 2014.
　　[13]XU H J，CAI W D，CHEN G R. Forums-oriented research on the spreading and inhibition of rumors[J]. International Journal of Foundations of Computer Science，2016，27（7）：845-862.
　　[14]XIA L L， JIANG G P， SONG Y R， et al. Modeling and analyzing the interaction between network rumors and authoritative information[J]. Entropy， 2015，17（1）：471-482.
　　[15]WANG J，WANG Y Q， LI M. Rumor spreading model with immunization strategy and delay time on homogeneous networks[J]. Communications in Theoretical Physics， 2017，68（12）：803-810.
　　[16]中国经济网. 2015《新媒体蓝皮书》发布：近六成假新闻首发于微博[EB/OL]. http：//politics.people.com.cn/n/2015/0624/c70731- 27201305.html.
　　[17]人民日报中央厨房. 智观天下：2017年十大网络谣言，你中招了吗[EB/OL]. https：//www.hubpd.com/c/2017-12-21/662759.shtml .
　　[18]新浪微博. 微波热门话题[EB/OL]. http：//data.weibo.com/index.html.
　　[19]陈昭，刘巍，欧阳秋珍. 计量经济学软件EViews 9.0 简明操作教程[M]. 北京：中国人民大学出版社，2017.
　　（责任编辑：江艳）
　　收稿日期：2019-05-05
　　基金项目：国家自然科学基金项目（61602389）
　　作者简介：吴越（1987-），女，博士，西华大学计算机与软件工程学院副教授，研究方向为社交网络动力学分析、自然语言处理;肖容（1998-），女，西华大学计算机与软件工程学院学生，研究方向为大数据处理。本文通讯作者：吴越。
转载注明来源:https://www.xzbu.com/8/view-15217517.htm

查看更多→

面向微博谣言关注度的大数据时序特性分析

相关文章