您好, 访客   登录/注册

基于数据挖掘的在线数据分析系统的设计

来源:用户上传      作者:

  摘   要:随着信息时代的到来,数据量日益膨胀,寻找一种能够有效分析、处理数据的手段的需求也日益迫切,在当今社会生产活动中,数据分析可视化正成为一种越来越普遍的需求。因此数据分析软件也随之成为各行各业从业人员的标配,本文将介绍的ZoomIn数据分析系统,采用简单易懂的Web操作界面来为用户提供将复杂数据可视化和使用模型对数据深度挖掘的功能,让用户能够通过对数据进行清洗、统计分析、训练相应的机器学习模型之后挖掘出隐藏在数据中的潜在价值。
  关键词:数据挖掘  数据分析  数据可视化
  中图分类号:TP311.1                               文献标识码:A                        文章编号:1674-098X(2020)03(a)-0133-02
  现今大数据时代下,不少中小企业已经积累了大量本行业的数据,但是由于没有专业数据分析能力,或是未配备数据分析人员,导致并不能将数据转化为生产力。
  现有市面上的数据分析工具如:Tableau、Spss等软件操作门槛较高,对专业能力有着一定的要求,需要数据分析师进行技术支持,成本过高。而且,市面上的数据分析软件大部分是PC端,鲜有Web端应用,这就造成使用不便、系统配置成本大等问题[1]。如何才能让大数据分析变得友好和易于理解,可视化无疑是最有效的途径。
  ZoomIn数据分析系统是一款智能数据分析产品,把抽象数据的可视化功能和专业的数据挖掘模型科学整合,系统采用Web应用的方式呈现给用户,在使用后可导出可视化分析报告、辅助决策等。
  1  系统架构
  本系统将目标需求按数据分析思路划分为五个模块,其中包括创建任务模块、数据预处理模块、数据分析模块、数据挖掘模块和任务发布模块。
  在任务发布后,用户对于同一任务可以进入任意模块进行迭代与改进,以保证分析结果的准确性和灵活性。
  ZoomIn数据分析系统各组件均采用開源技术,这些技术具备成熟度高、性能稳定与可扩展性高等诸多优势。系统组件包括:Web后端框架Django搭配前端框架Vue、前端数据可视化工具E-Charts、进行数据处理与清洗的Pandas、绘图工具库Seaborn、机器学习算法库Scikit-learn以及结构化数据库MySQL等。
  2  数据挖掘与展示
  2.1 数据挖掘
  Python语言近几年来在数据挖掘、数据分析等领域的使用率与热度持续上升,这主要得益于其丰富且强大的库以及其优雅简洁的语法特性。本系统中主要使用到的Pandas是Python中一种数据分析的包,可以用来做科学计算,从而为数据挖掘提供预先数据清洗和处理的环境。
  数据挖掘阶段,我们就会使用Scikit-learn包,运用其中封装好的机器学习与数据挖掘算法构造挖掘模型。其中我们的数据挖掘模块将不同字段组合放在不同算法模型进行关联分析、相关性分析、预测分析、聚类分析等挖掘其隐藏的信息。
  2.2 数据可视化
  本系统做为一个数据分析平台,其主要功能就是为了在Web端通过用户的简单交互操作,将复杂的数据源进行整理并将数据分析图表或是数据挖掘结果进行多维度展示。在数据挖掘阶段,我们将准备的各种挖掘模型的可调参数暴露给用户,让用户可以通过反复的调参配合图表进行不同角度的观察与分析。
  本系统的数据可视化部分采用两种不同展示方案,首先在数据预处理与数据分析阶段,由于用户需要拖拽字段和数据列来做直观处理,我们采用在前端使用E-Charts进行支持。而后在数据挖掘阶段,由于涉及大数据量的模型运算,会大大造成运算服务器的压力,所以我们使用SeaBorn将模型运算后的视图直接传送到前端展示。
  3  应用价值
  本系统不仅填补了Web端数据分析软件的空白,并且操作门槛低。专业的数据分析功能解决了有数据但无分析能力的中小用户的痛点,具有很高的应用价值,非常适合非数据挖掘专业方向的用户进行使用。借助数据挖掘模型[2]从大量原始数据中发掘出隐含的、有用的、尚未发现的信息,帮助决策者寻找数据间潜在的关联,发现被忽略的因素。
  4  实验与应用
  4.1 数据源
  数据来源是由用户提供,由于Pandas的强大功能可以将目前主流的数据文件类型统一处理比如csv、txt文件等,这些都属于中、小规模数据量,如果是大数据量处理的话,系统会选择高速通道传输文件。
  4.2 学生成绩分析
  智能教育是人工智能、大数据等智能技术与教育深度融合和创新发展形成的教育新模式[3],随着它的普及,教育愈发从传统的经验式把控逐渐向着数据量化控制方向靠拢。而成绩分析与预测就是其中的一环,结合中小学生升学过程中不同阶段的考试为数据源,进行趋势把控,尝试去预测其后面的成绩变化方向。我们依靠某市所有初、高中的学生入学与升学成绩数据为数据源,进行分析挖掘和展示。
  如上图所示是将学生成绩做线性回归的结果展示,系统成功地将复杂的分析结果通过Web应用的媒介直观地展示给用户,并且会在最后的结果发布模块给出相关的模型误差参考与分析建议。
  5  结语
  本文提出了一种基于数据挖掘的在线数据分析系统,针对于非数据分析方向的相关从业人员,解决其在低学习成本要求下进行专业数据挖掘和分析的硬性需求。系统有效的满足了用户简单交互、多维度分析数据并获取专业且直观的分析结果的诉求。
  目前系统主要是进行中小规模的数据挖掘与处理,为满足进一步扩大的数据量规模,在后续工作中,我们将引进分布式计算框架,用来支持大数据的分布式计算,更好地优化系统,使其可以应对更高水平的需求。
  参考文献
  [1] 闫龙川.基于开源软件的数据分析与可视化应用[A]. 中国电机工程学会电力信息化专业委员会、国家电网公司信息通信分公司.2016电力行业信息化年会论文集[C].中国电机工程学会电力信息化专业委员会、国家电网公司信息通信分公司:人民邮电出版社电信科学编辑部,2016:268-271.
  [2] 朱家元,张恒喜,虞健飞.在数据挖掘中基于SOM网络的数据分析可视化设计[J].计算机应用与软件,2003(2):15-16,41.
  [3] 刘邦奇.智能教育的发展形态与实践路径——兼谈智能教育与智慧教育的关系[J].现代教育技术,2019,29(10):20-27.
转载注明来源:https://www.xzbu.com/1/view-15248072.htm