您好, 访客   登录/注册

大数据环境下上网行为分析管理系统

来源:用户上传      作者:

  摘要:近几年来,国家不仅开始着重教育发展,同时也开始关注信息变化的各种形式。如今信息时代逐渐形成以大数据、云计算等新型方式为主流的发展。与此同时各大高校早几年便开始着重网上学习的新型学习方式,触及到网上学习自然也离不开校园网的利用,于是我们便在校园网上下功夫,通过对六盘水师范学院校园网产生日志数据的如下指标:上线总数的分布、连接时长统计、在线人数统计、流量使用统计、工作日和周末的网络活动对比、学生异常网络行为统计等,进行上网行为趋势、行为定位分析、上网行为等分析。给网络管理者提供一个合理管理网络资源和规范上网行为的分析系统。通过监制和管理校园网环境等措施,让学生自觉通过网络实现新时代下的学习形式,从而实现网络环境下自我约束与提升。
  关键词:校园网;上网行为;统计分析;数据分析;管理系统
  
  1大数据环境下的院校
  众所周知,现在大学生的课外活动时间相对于高中封闭式学习要自由得多,但是由此,也造成了大部分学生对于时间上的要求过于懒散,大部分时间花在网络上,生活作息不规律,学习效率大幅度降低。那么我们通过对六盘水师范学院的校园网数据的收集研究,对学生们在校园网络下的此类行为作出具有针对性且以实际理论数据为支撑的解决方案。
  现如今全国高校均已全面进入信息化教育环境,校园网络因此早已成为各大高校的标配,甚至升级成校园管理工作中的考核项目。校园网为教师、学生、管理人员构建了以大宽带为基础的多媒体网络沟通平台,以方便对教学资源、科研数据、综合管理信息的相互传输与交流。由此可见,校园网是一种宽带拓扑网络。
  对于我校的多媒体网络资源管理、网络教学实验室、电子图书馆、教学教务系统管理系统、考试数据库等,皆是以网络为基础,以此产生各司其职的小型VLAN网络,然后再通过介质传输或者无线传输进而搭建整个校园网络。这样可以可以使管理人员在极短时间内产生用户的校园网络行为报告,观察校园网行为报告并加以挖掘和探究,最后分析大学生上网的行为,监制高发用网时段和晚上熄灯后网络的使用规范。由此做到提升校园网络质量,加强学生生活作息规律,提高学生学习效率等目的。
  同时通过对我校学生的上网行为分析,我们由此可以进一步了解到大学生对于网络学习是产生的理念与要求,强调一个适合自己高效率的学习方式,并且做到分析教师讲解课程时方式方法的不足之处,而后加以改善,并制定大学生自我学习能力培养方法即对策。由此制定网络学习报告,在提升我校教学方面的质量的同时,也更加充实学生们的大学生活。
  除此之外,对于部分大学生的思想尚且还存在一些年轻化的状态,个人自律能力和事件识别能力还需有待提高,对于类似校园网的开放式网络有些许迷茫。所以可由此对于学生上网行为做一个调查,利用对校园网的测量与观察,将数据收集并且进行分析,可以避免从以下几方面的产生的危害:
  关于网络信息的安全问题,我们可以从网址这一类开始探究,我们需要做到的就是对于网址的筛选。近年来,还未进行相关技术认证的网址和非法网站逐渐增多,学生极其容易无意点击进入,对此我们将屏蔽危险网络,并做到防止钓鱼网出现,减少学生进入此类网站的情况,也避免给学生造成非积极影响。
  其次就是对于文件管理安全的要求,通过数据分析,我们了解到,文件可能会出现的问题,部分网络会导致内部文件外发审计的情况发生,由此我们也可对应相关问题采用文件后缀识别,封IP、端口的方式也尽可能避免此类情况发生,同时也要做到,在接受外部文件向内部文件发送时带来的外来病毒,导致文件中毒或文件丢失的情况。
  最后前面提到的关于安全的问题,还应着重在应用APP上,手机现已成为上网的使用多频率重点工具,对于手机应用的安全问题,也可从中获取相关数据信息,由此来确保应用APP使用时的安全问题。综合上述所说的情况,以此达到对于网络安全的审计,防止各类信息危害。
  与此同时通过此次分析以及数据收集形成相关网络数据报表,由此报表对于学生上网行为在深入探究,由此加强对于管理层方面的更深更全面控制,也为管理层决策提供相应的更好更符合依据。以便于使我校校园网络,达到一个更高更安全的层次,也方便为同学们带来更好的校园网的体验效果。
  2分析方法及技术
  2.1基于回归分析的数据分析
  在传统的分析方法中主要采用强制关联去分析具备依存关系的数据表的字符属性关联,这种分析方法利于单位用户的个人行为的独立整合,但是对于用户群体的非相关联用户分析存在单一局限性,不利与分析系统的结果的普遍性、公共性、切实性,所以引入回归分析法进行数据分析。
  回归分析法是是研究两个及两个以上的相同等级的变量间的相关关系的数据分析和统计的方法。在这种分析中变量与变量间的相关联系存在非强制性关联,宽松的依存关系。如用相关系数R来描述X与Y之间的相关性,公式如图1回归公式:
  
  透过图2在2018-12-1至2018-12-7这七天的部分数据可以看出每天的pc与手机访问呈现出强相关的趋势,并且直观的到手机端的用户远远多于pc的用户。(以上数据其演示作用,最终数据以产生的实际数据为主)
  2.2基于Hadoop生态圈的数据处理
  在传统的基于日志的上网行为管理系统中,必须得面临一天十几G的日志数据处理量,日志数据抽取分析的快速时效,难以排除的数据日志异常。
  Hadoop生态系统具备大型分布式文件系统HDFS,以及对底层文件系统进行数据驱动的MapReduce引擎。同时解决了分布式日志文件的大量儲存管理问题和接近实实时运算的高效工具,对于开发人员来说,他是一个更容易开发的和运行大数据处理的开源软件的平台,能够轻松的处理TB级的数据量。
  2.3基于于Excel、js的web数据呈现   Web的数据分析呈现较传统的数据分析呈现还是有所差异的。报表、条形图、扇形图、折现图等传统的展现方式虽然可以表达分析内容与情况趋势,但是却不能形象生动的表现出管理者需求的用户的上网行为和网络内容,因此引用了在传统的基础上加以优化的网络热力图、时段雷达图等更加鲜明生动的符合视觉直观需求的呈现方式:
  (1)硬性需求内容采用传统的图表表现手法,使用Excel自动绘制生成,以节约开发时间缩短系统开发周期,然后利用js将Excel生成的数据报表导入到web前端界面上进行呈现,部分实现效果如下图:
  
  (2)网络热力图:通过表现颜色的冷暖深浅程度,直接反映出热点信息的分布,相关区域的聚集等数据信息。网络热力图主要运用在网络高峰热点、直观视觉冲击、高呈现对比度等等很多以控制变量法为基础的的多维度分析中。在本分析管理系统中通过分析网络时段和对应的在线人数,表现出网络高发时段,其颜色越热,表示在线人数越多。
  (3)网络雷达图:雷达图是指对多个变量的全面分析。网络雷达图将变量之间的不确定关联形象化,从而可以使我们在对用数值无法表现的倾向性和印象性进行把握的时候,将之清晰的实现,并且达到为拟定网络分流限时计划提供信息分析的数据协助。由于实行方法可以通过Excel直接生成,所以我们依旧采用js实现对数据表的引入。
  
  (4)动态词云:是结合关键词标签的特征,如字体的大小、颜色等方式,表达重点信息程度,分析关键词标签的大片词图。字体若是越明显越突出,则说明关键词标签对应的内容出现的次数也就越频繁,由此便可以了解到用户通过网络对应用的使用频数以及应用的使用情况。动态词云就是通过做到关键词标签的各种各样的视觉特效,从而产生出各种各样的可视化表现效果。
  3总结
  经过我国现代信息科技化的长时间演变与进步,当下对于数据的处理也已经变得越来越成熟,大数据(BigData)已经可以做到在一定的时间内用普通数据处理工具做不到的对数据的集合上的一系列海量操作。由于信息科技的逐步成熟与完善,现如今各大院校大学生上网的行为多种多样,例如:信息浏览、购物数据、消费记录、资料查询、游戏娱乐等等都会构成比较庞大的数据集。这样的数据集由各式各样的数据形成,处理方面难以下手,由此我们则可使用大数据技术对此进行一系列操作获取其中的内在数据价值并加以利用,并由分析出的结果,加以探究,用于为高效提供各种新形势的教学方法做出贡献,也為高校的信息化管理提供新的辅助参考与思路,同时也可以使高效信息化管理逐步走向越来越高的层次。
转载注明来源:https://www.xzbu.com/1/view-15105750.htm