一、项目背景

1.项目描述:

本项目数据集包含了2017年11月25日至2017年12月3日之间,共1亿条用户数据记录,从中抽取前500w条数据进行分析,字段由ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。主要分析工具为python。

2.数据集来源及介绍:

来自阿里云天池官方数据集:User Behavior Data from Taobao for Recommendation

字段名描述:

列名称 说明
用户ID 整数类型,序列化后的用户ID
商品ID 整数类型,序列化后的商品ID
商品类目ID 整数类型,序列化后的商品所属类目ID
行为类型 字符串,枚举类型,包括(‘pv’, ‘buy’, ‘cart’, ‘fav’)
时间戳 行为发生的时间戳

行为类型描述:

行为类型 说明
pv 商品详情页pv,等价于点击
buy 商品购买
cart 将商品加入购物车
fav 收藏商品

二、明确问题与分析目的、建立分析框架

1.分析框架如下:

项目:淘宝用户数据分析

2.问题与分析目的:

2.1 问题定义及目的:
① 计算各个环节的转化率,分析流失率对环节进行改进
② 分析商品销售情况,对用户偏好和时间维度找寻规律,在用户偏好的商品种类和时间上采取相应的策略,如活动促销、push等
③找到核心的用户群体(由于缺少销售金额字段,所以从销售频率和最近一次消费进行分析),针对核心用户采取差异化策略

2.2 问题分析流程:
① 按商品与用户行为进行拆解
② 查看基础指标数据,如pv,uv,跳出率(只浏览一次的用户),访客支付转化率(购买商品人数/uv)等
③按商品大类与商品小类拆解分析,主要分析销量与商品类别之间的关系
④对用户行为进行分析,基于时间维度和淘宝行为维度
⑤采用RFM模型与AARRR模型的简化版,对数据进行拆解打分

三、数据预处理

数据预览与处理

1.预览
项目:淘宝用户数据分析
项目:淘宝用户数据分析
2.缺失值、异常值、重复值查看及处理

  • 缺失值
    项目:淘宝用户数据分析
    数据比较完整,无缺失值

  • 异常值
    主要过滤掉时间维度在2017年11月25日至2017年12月3日之外的数据

  • 重复值
    项目:淘宝用户数据分析
    共5个重复值,进行去重处理

    时间戳转化,并将转化的列添加到原框架中

    项目:淘宝用户数据分析

    四、流量类指标数据分析

    1.绝对指标分析

    活跃用户定义:每日用户行为在3次或以上的用户
    项目:淘宝用户数据分析

项目:淘宝用户数据分析
小结:4项指标(pv、uv、活跃用户、支付用户)在12月2日与12月3日均有较大幅度上升,推测原因是由于双12活动即将开始前的预热活动所带来的各项流量增长。

2.相对指标分析

人均pv:即人均浏览量,每日pv/每日uv;
活跃率:每日活跃用户数量/每日uv;
每日支付用户比例:每日支付用户数量/每日uv;
跳失率:指在统计时间内,只浏览点击一次的用户数量/uv;本文选取的统计时间周期是一天。

待更新

相关文章: