一、项目背景
1.项目描述:
本项目数据集包含了2017年11月25日至2017年12月3日之间,共1亿条用户数据记录,从中抽取前500w条数据进行分析,字段由ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。主要分析工具为python。
2.数据集来源及介绍:
来自阿里云天池官方数据集:User Behavior Data from Taobao for Recommendation
字段名描述:
| 列名称 | 说明 |
|---|---|
| 用户ID | 整数类型,序列化后的用户ID |
| 商品ID | 整数类型,序列化后的商品ID |
| 商品类目ID | 整数类型,序列化后的商品所属类目ID |
| 行为类型 | 字符串,枚举类型,包括(‘pv’, ‘buy’, ‘cart’, ‘fav’) |
| 时间戳 | 行为发生的时间戳 |
行为类型描述:
| 行为类型 | 说明 |
|---|---|
| pv | 商品详情页pv,等价于点击 |
| buy | 商品购买 |
| cart | 将商品加入购物车 |
| fav | 收藏商品 |
二、明确问题与分析目的、建立分析框架
1.分析框架如下:
2.问题与分析目的:
2.1 问题定义及目的:
① 计算各个环节的转化率,分析流失率对环节进行改进
② 分析商品销售情况,对用户偏好和时间维度找寻规律,在用户偏好的商品种类和时间上采取相应的策略,如活动促销、push等
③找到核心的用户群体(由于缺少销售金额字段,所以从销售频率和最近一次消费进行分析),针对核心用户采取差异化策略
2.2 问题分析流程:
① 按商品与用户行为进行拆解
② 查看基础指标数据,如pv,uv,跳出率(只浏览一次的用户),访客支付转化率(购买商品人数/uv)等
③按商品大类与商品小类拆解分析,主要分析销量与商品类别之间的关系
④对用户行为进行分析,基于时间维度和淘宝行为维度
⑤采用RFM模型与AARRR模型的简化版,对数据进行拆解打分
三、数据预处理
数据预览与处理
1.预览
2.缺失值、异常值、重复值查看及处理
-
缺失值
数据比较完整,无缺失值 -
异常值
主要过滤掉时间维度在2017年11月25日至2017年12月3日之外的数据 -
重复值
共5个重复值,进行去重处理时间戳转化,并将转化的列添加到原框架中
四、流量类指标数据分析
1.绝对指标分析
活跃用户定义:每日用户行为在3次或以上的用户
小结:4项指标(pv、uv、活跃用户、支付用户)在12月2日与12月3日均有较大幅度上升,推测原因是由于双12活动即将开始前的预热活动所带来的各项流量增长。
2.相对指标分析
人均pv:即人均浏览量,每日pv/每日uv;
活跃率:每日活跃用户数量/每日uv;
每日支付用户比例:每日支付用户数量/每日uv;
跳失率:指在统计时间内,只浏览点击一次的用户数量/uv;本文选取的统计时间周期是一天。
待更新