数据集
优衣库是日本快消公司的核心品牌,建立于1984年,当年是一家销售西服的小服装店,现已成为国际知名服装品牌。
数据字段说明:
- store_id 门店随机编号id,无实际意义
- city 门店所在城市
- channel 门店所产生的销售渠道,线上表示网上购买到门店自提,线下表示门店直接购买
- gender_group 客户性别 男女
- age_group 客户年龄段
- wkd_ind 购买发生的时间(周末,周中)
- product 产品类别
- customer 客户数量
- revenue 销售金额
- order 订单数量
- quant 购买的产品数量
- unit_cost 产品的成本(包含制造和营销层面)
任务
- 整体销售情况是如何随时间变化的?
- 不同产品的销售情况是怎样的?顾客偏爱哪种购买方式?
- 销售额和产品成本之间的关系是怎样的?
数据预处理流程
- 导包;
- 检查数据是否有缺失值,有缺失值,进行缺失值处理;——无缺失值
- 检查是否存在异常值,有就处理;——年龄、性别存在异常值
任务处理
任务一处理
整体销售情况是如何随时间变化的?
文字解读:观察问题的变量,有俩个。一个是销售情况,另一个是时间变换。观察数据集可以发现,与销售情况有关的数据有顾客数量、销售金额、卖出产品的数量。而与时间有关的数据只有wkd_ind。
这是一个一对多的关系,分别进行三次一对一进行观察比较。
- 时间和销售金额的关系
- 时间和顾客数量的关系
- 时间与出售产品数量的关系
结论:从销售金额、顾客数量、出售产品数量三个维度来看,整体销售情况,工作日比休息日更好。
任务二处理
不同产品的销售情况是怎样的?顾客偏爱哪种购买方式?
文字解读:有两个小问题,第一个小问题的变量是产品,对应数据集中的product。第二个小问题的变量是顾客和购买方式,顾客对应的数据集有年龄、性别、城市,购买方式对应数据集中的channel。
- 产品种类和出售数量的关系
- 顾客年龄和购买方式的关系
- 顾客性别和购买方式的关系
- 顾客所在城市和购买方式的关系
结论:T恤的销售情况最好,顾客最喜欢线下的购物方式,且深圳、杭州的20-39的女性更为明显。
任务三处理
销售额和产品成本之间的关系是怎样的?
文字解读:销售额和成本之间的关系,直接体现在利润上面。故而可以通过利润在产品上的关系来体现。具体的数字关系可以通过二者的相关系数来体现。
结论:利润和成本的相关系数:0.10275045141144552。二者虽呈正相关,但相关性不高。有一些产品存在少数的亏本时候,其中T恤的销售情况遥遥领先。