一步步做完收获颇多,记录分享。数据来自阿里天池

淘宝用户行为分析(1) - 数据清洗

1. 导入数据。发现由于Timestamp数据过长,Timestamp以科学计数法显示。

 ① 将Timestamp调整为正常的时间戳格式

数据分析实战之淘宝用户行为分析(1) -- 数据清洗

 2. 观察数据,进行初步清洗。

① 处理空值

数据分析实战之淘宝用户行为分析(1) -- 数据清洗

② 处理重复值 

数据分析实战之淘宝用户行为分析(1) -- 数据清洗

 ③ 将时间戳转换为日期格式

数据分析实战之淘宝用户行为分析(1) -- 数据清洗

④ 处理异常值

以年为维度观察数据,发现 数据分析实战之淘宝用户行为分析(1) -- 数据清洗

1970和2037属于异常值,删去。2018年和2015年的数据量太少(也可能是异常),不具有分析价值,删去。

>>> 明确分析的数据时间区间为2017年

数据分析实战之淘宝用户行为分析(1) -- 数据清洗 

以天为维度观察数据,发现除了2017-11-25至2017-12-03这个时间段(每日30w-50w数据量),其他日期的数据量非常非常少,仅有个位数或十位数。存在数据不完整的情况,不具有分析价值。

>>> 因此,进一步明确分析的数据统计区间为2017-11-25至2017-12-03这九天。

数据分析实战之淘宝用户行为分析(1) -- 数据清洗 

3. 为之后的分析准备数据。 

① 基于下一步的分析需要,将datetime进行切分

 >> 添加新列:时间段 (基于时间划分)

数据分析实战之淘宝用户行为分析(1) -- 数据清洗

 >> 添加新列:Weekday (基于日期判断当日为星期几)

数据分析实战之淘宝用户行为分析(1) -- 数据清洗

 4. 查看数据表,调整数据类型。

数据分析实战之淘宝用户行为分析(1) -- 数据清洗

 

 

相关文章:

  • 2021-07-11
  • 2021-09-29
  • 2021-11-21
  • 2021-05-20
  • 2021-07-23
  • 2021-05-05
  • 2021-12-24
  • 2021-03-30
猜你喜欢
  • 2021-12-25
  • 2021-07-25
  • 2021-12-23
  • 2021-06-01
  • 2021-12-20
  • 2021-12-17
相关资源
相似解决方案