您好, 访客   登录/注册

基于电商用户行为数据的可视分析研究

来源:用户上传      作者:费千笑

  摘 要:随着互联网发展,在线交易成为了一种新兴的电子商务模式,在我国也有越来越多企业认识到这一新型商业模式所带来的巨大经济效益。在线交易行为产生了大量交易数据,其中包括的一种比较典型的数据类型就是用户购买行为数据。用户购买行为数据中包含了众多人在购物时的行为规模和购买偏好等信息,对相关研究乃至商业的个性化推荐等方面都具有一定的推动作用。本文基于阿里天池的淘宝用户行为数据,采用可视化分析的手段,从时间维度、用户行为、商品分析方面对数据进行了多维度的分析,从中发现了一些有价值的用户消费行为模式和偏好,比如淘宝用户在购物时的消费习惯、消费偏好习惯等,对行为研究、个性化推荐等方面的研究与应用具有一定的意义。
  关键词:电商;行为数据;可视分析
  一、引言
  人类在日常的行为和生产活动中产生了大量的行为数据。这类数据中包含了用户在网络平台进行各项操作的行为偏好和规律等。在行为数据中,一种很典型的数据就是用户在电商平台购买物品过程产生的行为数据,也可以称之为电商用户行为数据,它反映了网络用户的购物倾向,以及商品的销售规律等信息,对电商用户行为数据进行分析有很大的价值。
  对这种行为数据进行分析与可视化,可以挖掘数据背后潜在的人类的行为模式,从而推动行为研究、行为分析等领域的研究与发展。目前针对于电商行为数据的可视分析研究中很多是针对销售数据进行研究和处理,如刘珊运用B2B交易平台的交易数据对商品进行分析;ZorattiS在社会化媒体时代企业传播实战宝典中利用数据挖掘事物间的关联性到精准营销中;陈烨等人运用社会网络分析构建不同类型用户社交网络有效挖掘用户行为特征;KennedyDS从移动互联网的角度提出用户行为画像的具体实施方法;Mueller等人基于Twitter 会员的相关数据集,创立了NamChar名称分类器,通过预测用户性别构建用户画像。但是,针对此类数据的分析研究中,大多数都是从单一的角度入手进行分析,这就会导致分析结果存在一定的局限性。尤其针对行为数据时,从单一的视角很难观察到人类复杂的行为特征。
  基于上述研究现状,在本文中采用阿里天池的淘宝用户行为数据,应用可视分析的手段,从多维度对数据进行分析,主要包括时间维度、用户操作行为维度、商品分析。从而从多个视角了解用户在不同维度下的各类操作的规模、模式,还能综合多维度的分析结果,还原人类复杂的购物行为。经过分析,本文提出的方法能够挖掘时间段内用户的时间行为偏好、购买商品偏好、购买习惯偏好,有助于发掘行为规律,推动相关研究发展。
  二、数据与可视分析任务描述
  1.数据描述与预处理
  本文的样本数据来源于天池阿里云提供的淘宝用户行为数据集。该数据集描述了淘宝用户在2014年11月-2014年12月内在淘宝App中的一系列操作行为数据。该数据集的原始规模有8.90MB,包含用户编号、商品编号、行为类型、用户地理位置、商品种类、行为发生时间六个字段。对数据进行处理后,共包括1048575条记录,时间跨度48天,涉及到8477位用户和701610件商品,7095类商品。
  2.可视分析任务
  本文总结了在电商用户行为中行为用户操作类型与具体操作行为数据中应当核心关注的内容,从而指导本文中可视分析任务的设计,主要有以下内容。
  T1:分析群体与个体操作行为的时间偏好规律。即不同时间粒度下不同用户的操作行为。
  T2:分析群体与个体进行购买行榈氖量偏好。即用户短期内购买商品的频次分析。
  T3:分析群体在线上购物的总体行为偏好。如各项操作的频率与购买偏好。
  T4:分析商品的浏览、销售等规律。各操作与商品之间的分析。
  三、电商数据的用户行为可视分析
  基于处理后的数据集以及分析任务,本文设计用户行为可视分析方法,从不同时间粒度进行用户活跃度分析、用户操作行为分析、商品分析等。
  1.不同时间粒度的用户活跃度分析
  本节分别选取了2014年11月-12月,一天中所有用户的操作行为数量的总和,并按照天进行统计与展示;选取了整个时间段中,一天内所有用户的操作行为数量的总和,并按照小时进行统计与展示。本文将上述不同时间粒度下用户的操作行为定义为“用户活跃度”。
  2014年11月-12月,用户的总体活跃度如图1(a)所示。基于图可得,折线整体趋于平缓,且明显存在两个峰值,峰值一是每月11日-13日,峰值二是一月中的17日-19日,此二峰值均处于“双十一”前后,故认为由于“双十一”优惠活动使得用户在该时间段操作频繁。
  一天中用户活跃度如图1(b)所示。在图中可以发现,从0点至24点,整体呈先减少后增加再减少的趋势,并存在2个谷值和1个峰值。谷值一是每天凌晨2点-5点,谷值二为每天16点-18点,两个时间段中,大部分用户处于工作或睡眠状态,因而活跃度较低。峰值是21点-22点,该时间大部分用户处于非工作时间,网购的活跃度普遍较高。这在一定程度上也反映了大部分用户网购的时间规律。
  2.用户操作行为分析
  (1) 用户购买数量分析
  本节对11月-12月之间,用户购买商品的数量进行了分析。据初步统计,大部分购买者购买物品都是在9件以内,为便于更深入的理解与分析,也为了解大多数用户购买商品的差异性,本文将购买细分为购买1件、购买2-4件、购买5-8件、购买9-100件四个数量级。结果如图2所示。
  根据图2(a)的漏斗图可以发现,用户整体购买商品的数量呈现递减的趋势。其中,购买1件商品的人数极多,购买2-4件商品的人数与之类似,即大部分人属于消费数量较少的少数需求,谨慎消费的状态。在8477人中,只有82人购买了9件以上的商品,说明大量消费人数占极少比例,该类用户可能存在大量需求,也可能为具有冲动。

nlc202204291244



转载注明来源:https://www.xzbu.com/3/view-15430051.htm

相关文章