数据集

数据集下载地址

优衣库是日本快消公司的核心品牌,建立于1984年,当年是一家销售西服的小服装店,现已成为国际知名服装品牌。

数据字段说明:

  • store_id 门店随机编号id,无实际意义
  • city 门店所在城市
  • channel 门店所产生的销售渠道,线上表示网上购买到门店自提,线下表示门店直接购买
  • gender_group 客户性别 男女
  • age_group 客户年龄段
  • wkd_ind 购买发生的时间(周末,周中)
  • product 产品类别
  • customer 客户数量
  • revenue 销售金额
  • order 订单数量
  • quant 购买的产品数量
  • unit_cost 产品的成本(包含制造和营销层面)

任务

  1. 整体销售情况是如何随时间变化的?
  2. 不同产品的销售情况是怎样的?顾客偏爱哪种购买方式?
  3. 销售额和产品成本之间的关系是怎样的?

数据预处理流程

  1. 导包;
  2. 检查数据是否有缺失值,有缺失值,进行缺失值处理;——无缺失值
  3. 检查是否存在异常值,有就处理;——年龄、性别存在异常值

任务处理

任务一处理

整体销售情况是如何随时间变化的?

文字解读:观察问题的变量,有俩个。一个是销售情况,另一个是时间变换。观察数据集可以发现,与销售情况有关的数据有顾客数量、销售金额、卖出产品的数量。而与时间有关的数据只有wkd_ind。
这是一个一对多的关系,分别进行三次一对一进行观察比较。

  1. 时间和销售金额的关系
  2. 时间和顾客数量的关系
  3. 时间与出售产品数量的关系

优衣库销售数据分析
优衣库销售数据分析
优衣库销售数据分析

结论:从销售金额、顾客数量、出售产品数量三个维度来看,整体销售情况,工作日比休息日更好。

任务二处理

不同产品的销售情况是怎样的?顾客偏爱哪种购买方式?

文字解读:有两个小问题,第一个小问题的变量是产品,对应数据集中的product。第二个小问题的变量是顾客和购买方式,顾客对应的数据集有年龄、性别、城市,购买方式对应数据集中的channel。

  1. 产品种类和出售数量的关系
  2. 顾客年龄和购买方式的关系
  3. 顾客性别和购买方式的关系
  4. 顾客所在城市和购买方式的关系

优衣库销售数据分析

优衣库销售数据分析
优衣库销售数据分析
优衣库销售数据分析

结论:T恤的销售情况最好,顾客最喜欢线下的购物方式,且深圳、杭州的20-39的女性更为明显。

任务三处理

销售额和产品成本之间的关系是怎样的?

文字解读:销售额和成本之间的关系,直接体现在利润上面。故而可以通过利润在产品上的关系来体现。具体的数字关系可以通过二者的相关系数来体现。

优衣库销售数据分析
优衣库销售数据分析

结论:利润和成本的相关系数:0.10275045141144552。二者虽呈正相关,但相关性不高。有一些产品存在少数的亏本时候,其中T恤的销售情况遥遥领先。

代码

https://www.kesci.com/home/project/5f1953f294d484002d2d23ca

相关文章: