数据分析流程:
确定分析目标——获取数据——清洗数据——构建模型并分析——结论
1.确定分析目标:
找出淘宝一段时间内的用户流失原因
2.获取数据:
数据来源:https://tianchi.aliyun.com/dataset/dataDetail?dataId=649&userId=1
数据下载完成后导入MySQL,部分数据显示如下:
数据观察:
1)用户ID,字符串类型
2)商品ID,字符串类型
3)商品类目ID,字符串类型
4)行为类型:字符串,枚举类型
5)时间戳:整型
3.清洗数据:
1)处理缺失值:
可以看出,不存在缺失值
2)一致化处理:
将时间戳转化为日期和时间
3)确定数据的时间范围:
4.构建模型:
1)计算各种行为类型的数量值:
2)将数据导入Excel中进行排序:
| 行为类型 | count行为类型 |
| buy | 2101 |
| cart | 5446 |
| fav | 2744 |
| pv | 89709 |
3)使用数据可视化将数值转变为百比数的形式并绘制图表:
分析:可以发现整个购物流程中从商品点击阶段至购买阶段时用户损失了87%左右,进一步分导致损失发生的原因
4)提取商品类型ID中pv占比前10的类型:
提取商品类型ID中buy占比前10的类型:
5)导入至Excel中用vlookup函数进行匹配:
分析:能够发现pv占比第四、五、七、九、十位的商品类目在buy占比中均未达到前十位,说明尽管此些类商品的需求较高,却未能达到大部分用户的满意;
buy占比第一、二、四位的商品类目未能达到pv占比的前十位
5.结论:
商品类目编号2355072、982926、1320293、2465336、3002561商品需要进行进一步的优化以满足用户需求;
商品类目编号2735466、3607361、2355072的商品可增加其投放渠道,增加此类商品的曝光