本文内容转自于 https://mp.weixin.qq.com/s?__biz=MjM5MDEzNDAyNQ==&mid=2650313425&idx=1&sn=72ebfbe60eb592e5b36aa0fd71c508d5&scene=21

今天将带来第7天的学习日记。

目录如下:
前言

  1. 删除重复
  2. 异常值监测
  3. 替换
  4. 数据映射
  5. 数值变量类型化
  6. 创建哑变量

上一篇的数据合并,以及本篇的数据清洗,都是非常非常实用的技能。我们用Python做数据分析,其实会有80%的功夫花在这些操作上面。
现在有一份心脏病患者的数据,经过问卷调查之后,最终录入数据如下:
Python入门 —— 数据清洗 Day7 【转载】
Python入门 —— 数据清洗 Day7 【转载】
Python入门 —— 数据清洗 Day7 【转载】

一、删除重复

Python入门 —— 数据清洗 Day7 【转载】
Python入门 —— 数据清洗 Day7 【转载】
Python入门 —— 数据清洗 Day7 【转载】

二、异常值检测

Python入门 —— 数据清洗 Day7 【转载】
Python入门 —— 数据清洗 Day7 【转载】
Python入门 —— 数据清洗 Day7 【转载】

三、替换

Python入门 —— 数据清洗 Day7 【转载】
Python入门 —— 数据清洗 Day7 【转载】

四、数据映射

接下来的一些处理,是为了变量能够更加便于分析,首先是要进行数据映射。什么是映射呢?以Areas为例,Areas取四个地区:A/B/C/D,这四个地区在分析的时候并没有什么意义,但A/B/C为城市,D为农村,这个很有意义,所以我要根据areas创建新变量CType:U-城市、R-农村,映射关系如下:
Python入门 —— 数据清洗 Day7 【转载】
Python入门 —— 数据清洗 Day7 【转载】

五、数值变量类型化

Python入门 —— 数据清洗 Day7 【转载】
Python入门 —— 数据清洗 Day7 【转载】
Python入门 —— 数据清洗 Day7 【转载】
Python入门 —— 数据清洗 Day7 【转载】

六、创建哑变量

Python入门 —— 数据清洗 Day7 【转载】
Python入门 —— 数据清洗 Day7 【转载】
Python入门 —— 数据清洗 Day7 【转载】
Python入门 —— 数据清洗 Day7 【转载】
Python入门 —— 数据清洗 Day7 【转载】

相关文章:

  • 2021-05-10
  • 2021-06-22
  • 2021-05-17
  • 2021-09-20
  • 2021-11-22
  • 2021-04-06
  • 2021-07-11
猜你喜欢
  • 2021-12-03
  • 2021-12-03
  • 2022-12-23
  • 2021-12-23
  • 2021-11-07
  • 2021-11-15
  • 2021-10-28
相关资源
相似解决方案