基于数据挖掘技术的舆情分析系统的设计
来源:用户上传
作者:
摘要:随着互联网在全球范围内的快速发展,人们的行为、交流方式发生了深刻的变化。社会上一些的热点、焦点问题通过互联网传播、碰撞和整合,形成网络舆论,对社会经济的发展产生重大影响。数据挖掘技术对網络舆情信息获取、内容分析、研判与预警等多方面都有极其重要的指导意义。该文提出基于数据挖掘技术设计网络舆情分析系统,引导舆论向着积极的方向发展,从而推进社会的稳定发展。
关键词:数据挖掘;舆情分析;网络爬虫
中图分类号:TP391 文献标识码:A
文章编号:1009-3044(2019)20-0009-02
开放科学(资源服务)标识码(OSID):
1 概述
随着互联网在全球范围内的迅速发展,网络已经成为社会舆论传播的主要载体之一。网络与人们的工作和生活息息相关,它在给人们带来便利的同时,也给社会管理工作带来诸多挑战。大量网民通过网络社交平台评论、转发社会突发事件,这些事件在网络传播的过程中很容易偏离事件性质本身,影响了事件的公正处理。网络舆论对社会经济的发展和个体声誉都将会产生一定的影响,如果不加以适当干预,对舆论的方向起误导作用。网络传播媒介多元化的今天,使得舆论的信息源呈现出多样性,同样实时有效地对网络舆论进行监测分析也变得越发困难。因此,本文将设计一个基于数据挖掘的舆情分析系统,采用分布式并行方法收集、处理数据,它能有效地对网络舆论进行预警和响应,在一定程度上减轻网络舆论的负面影响,尽量把舆论维持在一个可控的范围内,提高政府的公信力。
2 相关理论
2.1 网络舆情
网络舆情信息,是指人们借助互联网,对社会公共事务,特别是社会热点和热点问题,发表有影响力、有偏见的意见和言论。是人们社会中各种现象、问题所表达认知、态度、情感和行为倾向的集合。
网络舆情是社会舆情在互联网空间上的一种映射,是社会舆情的直接反映。2019年2月28日,中国互联网信息中心(CNNIC)在北京发布了第43期中国互联网发展统计报告。截至2018年12月,全国互联网用户数为8.29亿,全年新增网民5653万人,互联网普及率达59.6%,较2017年底提升3.8%。由于网络是一个开放的环境,因此它是匿名的,分散的,难以控制的。网络舆论表达迅速、信息多元化、互动性强,传播范围更加广泛,有着巨大的社会影响力。
2.2 数据挖掘
所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。
3 舆情分析系统的设计
为了及时、准确地掌握网络舆论的导向,发挥政府的舆论监督作用,利用数据挖掘技术建立舆情分析系统势在必行。一个完整的舆论分析系统由数据模块、分析模块和评价模块组成,主要包括以下四个功能组件:数据收据、数据预处理、数据分析、预测评价。
1)数据收集。数据收集是按照确定的数据分析内容,收集相关数据的过程,它为数据分析提供了素材和依据。根据所得的数据,抽象出数据的特征信息,将收集到的信息存入数据库。选择一种合适的数据存储和管理的数据仓库类型数据集的选取对数据挖掘模式是否有趣起决定作用。网络舆情信息搜集可以从一个URL集合开始,通过与敏感关键字集合进行比对,过滤无关选项,把有用的信息加入数据队列。
2)数据预处理。从对不同的源数据进行预处理的功能来分,数据预处理主要包括数据清理,数据集成,数据变换,数据规约等四个基本的功能。在数据挖掘整体过程中,海量的原始数据中存在这大量复杂的,重复的,不完整的数据,严重影响到数据挖掘算法的执行效率,甚至可能导致挖掘结果的偏差,为此,在数据挖掘算法执行之前,必须对收集到的原始数据进行预处理,以改进数据的质量,提高数据挖掘过程的效率,精度,性能。数据预处理主要包括数据清理,数据集成,数据变换与数据规约等技术。数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的准确率和效率。
3)数据分析。网络舆情分析系统充分利用数据挖掘分析工具,从海量的、不完整的、复杂多变的网络舆论信息中,我们可以找到舆论演变的内在原因和规律,并分析其内在因素之间的关系,准确地把握可以预见的舆情发展方向。数据分析是一个十分复杂的过程,首先需要对收集的数据做清洗工作,排除异常值、空白值、无效值、重复值等,然后进行加工、分析和转化,从中获得有效的数据内容。
4)预测评价。评估和分析是指根据可用信息,按照特定方法和法律衡量未来趋势或事物的可能结果,以便事先了解事物发展的过程和结果。网络舆情分析系统充分应用现有的关键字词云技术,对分析的结果可视化地表示,向管理者提供有针对性、可行性的评估报告。
4 总结
社会在发展,时代在进步,舆论网络也变得错综复杂,很多原有的数据挖掘技术难以达到预期的效果。本文结合数据挖掘最新技术和热门事件评价模型,通过网络爬虫原理实现数据的自动化采集工作,实现对网络舆论的精准分析、研判和引导,让社会管理部门能够及时、高效地处理突发舆情,为维护社会秩序的稳定奠定坚实的基础。
参考文献:
[1] 段淑敏. 网络舆情监测引导系统研究[J]. 经济研究导刊, 2012(28): 227.
[2] 余宏, 洪如霞, 史文津. 基于大数据的企业主题网络舆情分析系统模型研究[J]. 现代计算机: 专业版, 2018(13): 17.
[3] 高涛涛, 匡芳君. 基于大数据的高校网络舆情分析研究[J]. 电脑与电信, 2017(10): 16.
[4] 段淑敏. 基于WUM的Web舆情监测引导系统研究[J]. 计算机光盘软件与应用, 2012(14): 45-46.
[5] 潘大庆. 基于数据挖掘的舆情监测系统设计[J]. 大众科技, 2014(11): 1.
[6] 张治斌, 刘威. 浅析数据挖掘中的数据预处理技术[J]. 数字技术与应用, 2017(10): 115.
【通联编辑:谢媛媛】
转载注明来源:https://www.xzbu.com/8/view-15004413.htm