突发事件前Twitter用户言语行为研究:基于机器学习的方法
来源:用户上传
作者:
摘要:针对现代恐怖组织利用社交媒体,进行在线恐怖宣传来策动突发事件的情况,本研究使用机器学习的方法,对Twit-ter中的相关文本内容进行了分析。首先对推文进行了多种预处理,测试了三种特征提取的优劣,并加入了有言语行为相关特征的词典,其次比较了四种分类器在识别Twitter中用户言语行为效果上的优劣,并进行了参数优化。最后将训练好的模型对某爆炸事件前48小时的相关推文进行了分析,为今后找到相关突发事件发生前的言语行为变化规律提供了依据。
关键词:社交媒体;突发事件;文本分类;言语行为;特征提取
中图分类号:TP393
文献标识码:A
文章编号:1009-3044(2020)04-0188-04
收稿日期:2019-10-15
作者简介:曹若凡(1995—),男,上海人,研究生在读,管理学硕士,主要研究方向为自然语言处理,情感分歧。
Research on Speech Acts of users in Twitter before the emergency:Based on Machine Learning Methods
CAO Ruo-fan
(School of Economics and Management,Tongji University,Shanghai 200092,China)
Abstract:In response to the modern terrorist organizations which combine the online terrorist attack with offline violent attacks,this pa-per focus on the text content in social media Twitter which related to violent terror,use the speech act theory and the method of machine learning,explore the changes of speech acts of users in Twitter.First,this paper pre-process the text data in Twitter,and use several methods of feature extraction and add the speech acts dictionary to vectorize the tweets for training classifier.Then this paper test Sup-port Vector Machine,Decision Tree,Naive Bayes and Random Forest these four kinds of classifier which can best identify the user' s speech acts in Twitter,this paper adopt precision,recall and F-score these three kinds of measure to evaluate the model and optimize its parameters.At last,this paper use the trained model to analyze the tweet which contained “ISIS" within 48 hours before the Brussels terrorist attacks to automatically recognize the user ' s speech acts.This provide a basis to find the pattern about changes of speech acts be-fore the violent terrorist incidents in the future.
Key words:social media;violent terrorist incidents;text classification;speech act;feature extraction
1 概述
近年来各类突发事件呈多发趋势,尤其是一些绑架、屠杀、袭击等暴力恐怖事件。这些事件不仅会严重威胁人们的生命财产安全、阻碍着社会和经济的发展,还会引起公众的大范围恐慌情绪,进一步影响着社会秩序的维护[1]。现代的恐怖组织利用社交媒体,在网络上宣传极端主义、蛊惑民众、招募成员,通过在线的方式来传递恐怖信息、实施恐怖行为[2]。基于此,本.文针对这一类的突发事件进行了研究,以社交媒体Twitter中的相关文本为研究对象,分析了某爆炸事件前用户的言语行为的变化,以期在未来可以找到其中的规律,使得预测暴恐事件成为可能,这也许在未来可以成为新的反恐预警方式。
2 文献综述
现代的恐怖组织把社交媒体作为了策划和发动袭击的指挥部,将网络变成了相互沟通联系的桥梁,这进一步地增大了传统反恐的难度,也意味著要引入新的反恐思维和理念来进行应对[3]。但反恐情报机构同样可以依托于社交媒体来获取更多的相关信息,从而更有准备的应对恐怖主义的威胁[4]。一旦及时捕捉到了相关信息并且进行了应对和防范,那么就完全可以降低恐怖主义的负面效果,从而成功地阻止恐怖组织的活动。然而,现如今反恐情报机构针对涉恐信息和相关账号的处理方法,往往还是单一的删除或是封号处理,大多数时候并没有对其中蕴含的内容信息进行挖掘,这也使得相关部门并没有获得太多的预警性的情报[5]。利用机器学习的技术对于社交媒体中的涉恐信息进行收集和分析是未来研究恐怖活动的趋势,也为反恐预警提供了技术支持[6]。这既有助于实现对威胁人民生命财产安全的暴力恐怖事件的预警,也有助于完善国家的反恐情报分析,使得情报机构更加成熟[7],从而更有效的预防和打击恐怖主义。 近年来,随着互联网的发展和大数据的兴起,已经有越来越多的国内外学者利用机器学习的方法,针对社交媒体等中的文本进行了挖掘。也有一些学者已經开始尝试使用社交媒体中的数据来对未来的事件进行了预测。如Contractor[8]等人就用了社交媒体Twitter中的数据对菲律宾大选进行了预测。而胡婧[9]则利用社交媒体中的数据建立了股票交易的预测模型,来对个股进行了预测研究。但现在对于挖掘社交媒体中的内容的兴趣大多集中于科学界和商业界内,很少有学者将这些技术针对善于利用社交媒体的现代恐怖分子们进行研究。
为了更好地识别出Twitter中用户的行为,本文还引入了Austin[10]提出的言语行为理论,即人在实际交往的过程中离不开说话和写字这类的言语行为,人在说话的同时就是在实施行为,所以本文以此为基础,对Twitter中的用户的言语行为进行分析来探究其中的变化。Zhang[11]等人也指出对于Twitter中用户的言语行为的自动识别,可以很好的洞察用户在Twitter上的交流行为。基于Searle[12]对言语行为分类的基础上,本文把推文分为:陈述句、疑问句、建议句、评论句和其他。将言语行为识别的方法与机器学习的方法相结合,可以更好地体会到社交媒体中用户行为的变化,这样可以使得相关情报机构做出更准确、更有针对性的分析。但目前还没有学者尝试利用Twitter中的文本来针对暴力恐怖事件发生前的用户言语行为进行分析和研究。
3 模型构建
3.1 数据预处理
Kaufmannl[13]等人认为,Twitter中的文本由于它的高度不规则的语法和用法,使得学者难以挖掘其中的信息,所以要先对其进行预处理来使其标准化,这样也可以尽可能地去除噪声。所以本文按照如下步骤对推文进行了预处理:
(1)删除推文中无法被处理的非ASCII字符;(2)将所有单词小写化;(3)删除无实际意义的网址链接;(4)删除重复的推文;(5)删除推文中的停用词;(6)恢复用户使用的缩写词。
3.2 构建向量空间模型
由于Twitter中的文本是变长的未处理过的文本数据,无法被分类器直接处理,所以要将其向量化成定长的数值特征向量。本文选择了词袋、TF-IDF和提示词词典的方法进行了特征提取,并比较了在识别推文中用户言语行为上的优劣。
词袋的方法是将每个词都作为一个特征,以二值或是计数的方式进行表示。
但在推文数据集中,有些非常常见的词汇可能携带的推文中实际内容的信息反而很少,这也许会掩盖那些出现次数较少但是携带很多有效信息的词。而TF-IDF正是一种通 过计算选择特征的权重来转化为特征值的方法。
除此之外,推文中的有些单词或词组可以很好地指示出用户的言语行为,如推文中出现“why”代表这条推文属于疑问类别,而推文中出现“you can”则代表这条推文属于建议类别。本文沿用了Zhang等人叫从推文中提取编译的,针对Twitter中英语的535个具有言语行为特征的提示词和词组来构建提示词词典。
3.3 构建分类器与模型评估
本文采用Python的第三方机器学习库Seikit-Learn中的模块,比较了决策树、随机森林、朴素贝叶斯和支持向量机这四种分类器[14]对于文本中的言语行为进行了识别。
本文采用精度、召回率和F度量这三种度量对使用不同预处理方法、特征提取方法和不同参数的分类器的结果进行了评估[15]。
4 实验
4.1 实验设置
本文使用Zhang等人[14]已经标注好的8613条推文来训练分类器,表1为各类别推文数据的数量分布:
本文采用十折交叉验证的方法,取十次验证的结果的加权平均值作为最终的结果。文本分词使用Python第三方自然语言工具包NLTK中的模块来完成,通过推文中的空格和标点来进行分词。
首先,本文比较了不同预处理方式的优劣。其次,本文使用了多种特征提取的方法如二值的词袋、计数的词袋和TF-IDF来将推文向量化,并加人有言语行为相关特征的提示词词典,对比了多种特征提取方法的优劣。最后,本文比较了支持.向量机、决策树、朴素贝叶斯和随机森林这四种不同分类器对于识别Twitter中用户的言语行为的效果的差异,并对效果最好的分类器的参数来进行优化,以期获得效果最好的模型。
4.2 实验结果:
上述实验结果表明,对文本进行恢复缩写词、不进行去处非英语单词的预处理,特征提取结合使用提示词词典和词袋构成的词典的方法,分类器选择线性支持向量机(惩罚因子选0.125),这样得到的分类器模型效果最好,表2与图1中的数据为对于识别Twitter用户的言语行为的效果最佳的模型,各类别和总体的十次加权平均后的评估度量的值:
4.3 实验总结
(1)恢复推文中的缩写词的预处理可以减少由于缩写而带来的误差,通过识别出作为同一个词的不同形式,来减少重复的特征;但去除推文中的非英语单词,可能会去表情符号等对Twitter中用户的言语行为识别有帮助的信息,反而会让分类的效果变差。
(2)有很多单词只在推文集合里出现了一两次,这些单词对分类没有影响可以舍去,不能把它算作为推文向量化的特征;在加入了提示词词典后,言语行为识别的效果有了较大提升,这说明这些词语的确能够较好地指示出Twitter中用户的言语行为,且综合使用提示词词典和词袋构成的词典效果更好。
(3)四种分类器中朴素贝叶斯的分类效果最差,也许是因为它所假定的类条件独立性并不准确,推文中特征之间可能存在依赖关系,即不是每一个特征的影响都会独立于其他特征;而随机森林的分类效果全面好于决策树,这是因为随机森林是由多个决策树组成的,会基于各个决策树的投票来得到推文的类别,所以效果往往更好;而支持向量机是四个分类器中效果最好的,也许是因为它把推文映射到足够高的维度上后,找到了能够把不同类别推文较好分开的决策边界,所以它能最好的识别出Twitter上用户的言语行为。 5 模型应用
本文采用Twitter官方的流API爬取到的某爆炸事件前48小时的包含恐怖组织信息的相关推文,共1697条,以12小時为一段共分为4段。对其进行六种预处理后推文数量为1209条,各阶段数据如表3所示。使用前面训练好的分类器模型来自动识别这些推文的用户言语行为,并将言语行为分类的结果运用于暴力恐怖事件前的分析中。
5.1 分类结果
由于其他这一类别是很多不同言语行为类型的组合,即是一个不同成分的合集,且有言语行为特征的提示词词典也是针对其他四类所组成的词典,并不包括其他这一类,于是在预测暴力恐怖事件时不考虑这一类别,只考虑陈述、疑问、建议、评论这四类。表4为各个时间段这四个类别的分布,图2-图5展示了四类数据的分布变化趋势:
5.2 言语行为分析
对暴力恐怖事件发生前的整段分析中发现,Twitter中用户的言语行为分布发生了明显的变化,这可能是有恐怖分子在Twitter上正在谋划或组织着这一次的暴力恐怖事件。若今后Twitter上再出现类似的言语行为分布,这也许就是又有恐怖分子在谋划暴力恐怖事件的信号,这为今后发现其中的规律提供了依据,在未来一旦发现了变化规律就足以使得相关部门引起警惕和警觉,注意预防类似事件的发生,从而避免出现人员伤亡和财产损失。
如4.1中的图表中所示的那样,疑问和建议这两类的推文在事件前12到24小时明显增多,达到了自己这一类在这四个时间段中所占百分比的最大值。相应的,评论和陈述这两类的推文明显减少,达到了自己这一类在这四个时间段中所占百分比的最小值。这也许是因为恐怖分子在和他们的支持者进行沟通,让他们的支持者对他们要进行的暴力恐怖袭击提出疑问或者建议。
而在事件前12个小时内,疑问和建议这两类的推文所占比重有所下降,而评论和陈述这两类的推文所占比重有所上升。这也许是因为恐怖分子已经确定如果去行动,并已经进行最后的准备,在陈述告知支持者具体的行动,或向恐怖主义的支持者申请筹款,并且使这些支持者们对这次的行动进行评论。
本文通过机器学习的方法,为分析暴力恐怖事件提供了新的思路,也为发现暴力恐怖事件前的用户言语行为变化提供了理论依据。
6 结束语
对于Twitter中用户的言语行为的识别既有理论价值也有实际意义。它也引入了一个新的层面来研究社交媒体内容,以及提供真实生活的数据来验证言语行为理论。而言语行为理论也为研究Twitter用户提供了一个好的窗口,将言语行为理论和数据挖掘的方法相结合,可以更好地识别出社交媒体中用户行为的变化。
而近年来恐怖组织不仅在线下发动着各类惨绝人寰的爆:炸和屠杀,线上还会通过社交媒体宣传蛊惑和进行招募,这严重威胁了人民的生命安全和社会的稳定发展。所以在未来,自动识别出社交媒体中相关言语行为的变化规律,从而预测出将要发生的暴力恐怖事件,来进行控制和预防有着极大的实际意义,这也是本文所希望看到的。
参考文献:
[1]瞿志凯,兰月新,夏一雪,等.大数据背景下突发事件情报分析模型构建研究[J].现代情报,2017,37(1):45-50.
[2]李华伟.社交媒体在“伊斯兰国”恐怖活动中的作用及监管困境[J].宗教社会学,2017(0):224-242.
[3]李本先,张薇.反恐情报2.0:互联网时代的反恐情报体系[J].情报杂志,2017,36(10):17-21.
[4]Amble J C.Combating terrorism in the new media environment[J].Studies in Conflict & Terrorism,2012,35(5):339-353.
[5]杨增光.社交媒体在反恐情报工作中的应用研究[D].北京:中国人民公安大学,2017.
[6]倪叶舟,张鹏,扈翔,等.大数据背景下涉恐信息挖掘方法综述[J].中国公共安全:学术版,2018(4):91-95.
[7]梅建明.论反恐数据挖掘[J].中国人民公安大学学报,2007,23(2):24-29.
[8]Contractor D,Chawda B,Mehta S,et al.Tracking political elections on social media:Applications and experience[C]/Proceedings of the Twenty-Fourth International Joint Conference on Artificial Intelligence,IJCAI.2015:25-31.
[9]胡婧.基于社交媒体信息的中国股票交易预测研究[D].武汉:武汉理工大学,2017.
[10]Austin J L.How to do things with words[M].Cambridge:Ox-ford University Press,1975.
[11]Zhang R,Gao D,Li W.What Are Tweeters Doing:Recognizing Speech Acts in Twitter[C]/In Proceedings of AAAI-11W orkshop on Analyzing Microtext.2011:86-91.
[12]Searle J R.Indirect speech Acts[M]/Speech Acts.New York::BRILL,,1975:.
[13]Kaufmann M,Kalita J.Syntactic Normalization of Twitter Messages[C//In Proceedings of International conference on natural on Natural Language Processing,Kharagpur,India.2010.
[14]Han J W,Kamber M,Pei J.Data cube technology[M]/DataMining.Amsterdam:Elsevier,2012:187-242.
[15]Sokolova M,Szpakowicz S.Machine learning in natural language processing[M]/Handbook of Research on MachineLearning Applications and Trends,ICI Global,2010:302-324.
[通联编辑:唐一东]
转载注明来源:https://www.xzbu.com/8/view-15162415.htm