您好, 访客   登录/注册

基于大数据的用户行为轨迹及预警系统的研究

来源:用户上传      作者:

  摘   要:为及时对用户提出工作、学习、生活等方面的做出指导和帮助,文章以复旦大学为例,综合对用户基础信息、消费信息、上网行为等数据的全方位分析,研发出了一种基于大数据的用户行为轨迹及预警系统。该系统通过对网络日志、校园卡数据、网站浏览记录等的采集,并结合地图,建立起用户行为轨迹的路线图,最后抽象出标签化的用户模型,如果发现用户异常行为,则进行预警。为用户在校安全提供了大数据指导,极大提高了学校的精细化管理水平。
  关键词:大数据;用户行为轨迹;数据采集;行为分析;预警系统
  中图分类号:TP393.08          文献标识码:A
  Abstract: In order to timely provide guidance and help for teachers and students in working, learning, life, etc., in Fudan University, all the basic information, consumption information, online behavior and other data were combined to conduct a comprehensive analysis. User behavior track and early warning system based on big data was developed. By collecting and analyzing network log data, campus card consumption record data, and website browsing record data, and in combination with map, road maps for user behavior tracks were established and labeling user models were abstracted. If users’ abnormal behaviors are found, then early warnings will be given. Big data guidance for users can be provided to make sure they are safe in university, and the refined management level is much better.
  Key words: big data; user behavior track; data collection; behavior analysis; early warning system
  1 引言
  随着教育信息化的发展,各高校在业务管理、科學研究、人才培养等方面都有了极大的提升[1],特别是近些年大数据、云计算等新技术的应用,使高校教学和管理等方面的决策能力突飞猛进[2]。但是,对单一数据的分析,不能完全反映用户存在的所有问题[3]。因此本文研究了一种基于大数据分析的用户行为轨迹及预警系统。该系统能有效地对用户所有消费、上网、校园卡、网络设备等数据进行全方位分析,从而能及时对用户提出学习、生活、工作等方面的指导和帮助,且能为将来潜在的数据和业务需求提供支撑[4]。
  2 系统设计
  2.1 技术架构设计
  该系统设计的技术架构主要包括数据源层、数据处理层、数据存储层和应用层。其中,数据采集针对复旦大学的数据源,主要有无线网络接入点(Access Point,AP)设备日志数据、无线网络接入控制器(Access Controller,AC)设备日志数据、用户基础信息等,分别从设备日志、第三方系统API或者关系型数据库中采集,另增加标签、来源、分库标识、分类标识等;数据处理主要是对数据做统一格式标准化处理,并根据数据分类标识对数据进行格式化解析、清洗等;数据存储主要是将采集到的原始数据和解析数据存入搜索引擎,便于后续对数据进行检索[1]。另将解析数据存入分析引擎,用于后续对用户行为轨迹和用户在校行为进行数据分析。其中,原始数据主要存储在离线计算引擎和数据检索引擎,原始数据保存周期支持配置,过期的数据程序将自动删除。经计算处理过的数据保存于离线计算引擎,保存周期和原始数据的保存周期相同。数据检索引擎数据供搜索模块使用,离线引擎保存数据供离线计算任务使用。数据备份采用一源多备的备份方式,通过设置计算引擎的副本实现数据的备份,部分存储服务故障时不影响服务,同时不会导致数据丢失,故障服务重启后会从副本上恢复数据。创新地使用倒排索引,令本文的搜索与分析引擎比常规关系型数据库搜索性能有了极大的提升;数据分析主要是对存储后的数据根据实际需求制定对应的计算规则,计算出对应的指标,如停留时间、消费平均值等,然后进行数据分析。
  2.2 数据架构设计
  本文设计的数据架构,如图1所示。
  该架构主要包括AC和AP设备日志数据、校园卡使用记录数据、用户基础信息数据、数据加工、数据管理等。其中AP和AC设备日志数据通过设备自带的系统日志(System log,Syslog)服务输出到分析平台等,校园卡使用记录数据通过HTTP请求校园卡系统的Open API或者连接数据库读取。用户基础信息数据通过用户管理系统Open API或者连接数据库读取;而数据加工是将读取的原始数据进行解析处理为可用于计算分析的KV表数据,并针对复旦大学的实际情况加入地理位置和地理信息系统(Geographic Information System,GIS)坐标的关系源数据、危险网站网址和网站性质等信息源数据。通过实时计算和离线计算,计算出用户的出现位置、出现次数、停留时间、消费行为指标、上网行为指标等指标型数据;数据管理则为管理已经加工好的GIS源数据、危险网站源数据,可对这类数据进行增删改等管理操作,管理日志数据的生命周期、行为轨迹数据的生命周期等。原始数据和加工后的数据分别存储在数据检索引擎和离线计算引擎上;数据应用是将加工后的数据用于基于GIS的用户行为轨迹的展示,建立用户上网行为模型等。   2.3 物理架构设计
  本架构主要包括数据采集、数据接收、数据处理、数据存储、数据备份等。其中数据采集将采集数据客户端部署在被采集数据的服务器上,有资源占用少、性能稳定、读取数据延迟小等特点;数据接收服务端主要接收采集客户端采集到的数据。可部署多个数据接收服务端.其性能稳定、支持高,可用在4核、8GB配置的机器上,每秒可接收40万条数据[2];数据缓存集群主要用于数据接收和处理之间的缓存,保证系统在高并发冲击下的稳定性和数据安全性。数据处理服务端是对数据进行高效实时的处理,作为可以分析的数据;数据备份是将基本数据库的数据进行备份,用于恢复和汇总[3];数据搜索与分析集群是将原始数据与分析数据按照结构化存储,分别存储到分析引擎和搜索引擎。分析引擎和搜索引擎都会存放原始数据和分析数据,存储在搜索引擎的数据作为日志管理的索引用途,储存在分析引擎的数据作为可视化和预警的统计分析用途。其中,搜索引擎在复旦大学环境中可共用已有厂商提供的搜索引擎服务,无需再额外部署,减少资源投入成本,并提高数据的可用性[4];Web控制台主要负责对数据进行实时计算和离线计算的数据分析、数据搜索和数据可视化及其相关应用场景等,对外提供数据API接口。
  3 系统功能
  3.1 数据采集功能
  针对网络设备、路由器、交换机等硬件设备,日志平台使用服务器采集,通过Syslog协议将该设备日志转发至服务器,再由日志平台Agent前往服务器进行采集。其中,日志采集关键的数据结构是文件发送状态数据结构State。State描述的是文件的全局唯一信息和当前的上传位置(offset)[5]。而日志采集程序对日志原文进行打标签处理,打标签的目的是对日志数据进行分类,同时指定日志的解析规则和保存周期[6]。
  3.2 数据处理功能
  本系统可以用正则解析、JSON解析、字段值拆分、数值转换等抽取有用字段信息。
  以AC日志数据为例,主要应用正则解析对其进行数据处理。过程说明为:
  对AC日志的数据处理,需要处理两类日志:
  (1)样例日志1
  1)日志原文:
  2)解析规则: fudantrace
  3)解析结果:
  (2)样例日志2
  1)日志原文:
  2)解析规则:fudantrace
  3)解析结果:
  3.3 数据计算功能
  一是基于时间顺序进行用户数据的检索,根据出现在某一建筑物以及根据登录退出状态作为一个行为记录点,按照时间出现的先后顺序作为轨迹行为路径;二是基于当前数据的完整性分析以及合理性分析,在得到行为数据后,通过百度地图Getpoint获取对应的经纬度信息以及AP和复旦大学建筑物的关系网,得到AP和经纬度以及建筑物对应关系的详情信息。
  3.4 轨迹可视化功能
  轨迹的可视化系统建设,位置数据的准确性取决于设备、地图以及两者如何匹配。本文采用POI精准映射技术,通过与业界高质量的基准地图结合实现用户轨迹精确匹配和回溯。首先,要在页面中添加一个地图容器,然后在页面加载,完成之后调用百度地图API,即可以在页面上看到百度地图[7];其次,可通过ID查找对应人员的日志数据,通过时间精确定位到此用户具体时间内的活动轨迹信息。时间选择有相对时间范围和绝对时间范围两种选择模式,方便灵活应对各种查询场景[8];最后,添加用户轨迹和停留点标记。获取的结果数据是一个一维数组,数组中的元素包含了当前地点的坐标、用户信息、时间等[9]。
  3.5 用户在校行为分析功能
  该功能主要分析用户在学校的行为,包括用户上网和校园卡使用情况等。该功能包括的主要模块为计算用户在教学区平均停留时间、计算重点关注网站登录次数和记录以及计算校园卡消费情况和使用次数。
  4 异常行为预警系统
  4.1 主要功能
  根据实时采集的数据,对比用户活动特征,在一段时间内跟历史特征有严重偏差,则进行数据预警,该系统支持针对日志设置条件触发式的告警。告警条件触发后,可通过短信或邮件等方式,发送告警信息给预先设置的接收人。
  4.2 实现方法
  一是通过对分析数据设定不同的触发条件,实现基于业务逻辑的告警;二是通过预警页面配置同比或环比策略等进行历史数据比对,实现基于日志等数据的告警[10]。
  4.3 告警方式
  一是事件数告警,即在一个给定的时间范围内触发告警的阈值数,如重点关注网站访问告警;二是连续统计告警,即当某个告警条件在某个时间内连续触发次数达到阀值,才触发告警,如连续一段时间无行为轨迹和校园卡记录告警;三是基线告警,即基于用户行为轨迹历史数据,利用智能算法和机器学习,对未来一段时间内每个时间点的数值进行精准预测,将预测值作为基线来监控和告警,如在校活动频率和停留时间下降超过指定百分比行为告警等。
  4.4 应用场景
  该子系统可结合各业务部门的个性化需求使用,针对用户的行为特征制定对应的异常行为告警策略。例如:累计多天(排除周末和节假日)无行为轨迹数据和校园卡消费记录数据告警策略;累计多天(排除周末和节假日)无在教学区行为轨迹数据告警策略;历史数据做基线对比在校活动频率和停留时间下降超过指定百分比行为告警策略;历史无重点关注网站访问记录,新增重点关注网站访问记录告警策略;频繁访问重点关注网站告警策略等。
  该子系统也可对校园网络故障、系统自身故障等问题进行预警,通过短信或邮件等方式,发送告警信息给预先设置的接收人。
  5 结束语
  本文以复旦大学为例,阐述了基于大数据的用户行为轨迹及预警系统的架构设计、业务功能、数据逻辑等,并用样例数据进行了测试。测试结果表明,该系统在将机器数据和业务数据相结合进行综合分析后,可以准确地反映用户行为轨迹等。对异常行为能及早发现和预警,为用户行为的安全性提供帮助[10],极大提高了学校的精细化管理水平。
  基金项目:
  中国教育和科研计算机网CERNET网络中心项目(项目编号:NGII20170114)
  参考文献
  [1] 郭斌,翟书颖,於志文,et al.群智大数据:感知、优选与理解[J].大数据,2017(05):60-72.
  [2] 钟小强.袋鼠云百亿日志数據下ES性能优化实践[EB/OL].[2018-12-15]https://elasticsearch.cn/slides/169#page=8.
  [3] 符涛.C部队大学生士兵信息管理系统设计与实现[D].电子科技大学.2012.
  [4] KRIEGEL H.Data Science/Data Mining[J].Digitale Welt,2019,3(1):7-8.
  [5] 孙瑶.轨道交通日志数据存储挖掘子系统的设计与实现[D].北京邮电大学,2017.
  [6] 崔蕾.Linux主机安全审计日志获取系统[D].北京交通大学,2005.
  [7] 杨明远.烟草配送中基于Android的车载GIS终端设计与实现[D].郑州大学,2017.
  [8] 牛亚斌.基于Android平台的高校学生信息查询系统设计与实现[D].西北农林科技大学,2016.
  [9] 祝乃庆.全景图自动拼接算法研究及系统实现[D].南京理工大学,2004.
  [10] 宁海元.袋鼠云日志,日志分析没那么容易[EB/OL].[2016-05-18] https://yq.aliyun.com/articles/47052.
转载注明来源:https://www.xzbu.com/1/view-15129173.htm