缺失值

当我们拿到数据的时候,数据不一定是完整的,有时候一些特征有缺失值,我们可以通过可视化缺失值来决定我们下一步要进行的操作。

missingno库

missingno是一个可视化缺失值的库,方便使用,我们可以用pip install missingno 即可下载该库。

例子

import missingno as msno
msno.matrix(players.sample(500))#players表示类型为dataframe的表格,sample(500)表示抽取表格中500个样本。

missingno库---缺失值可视化分析
上图是代码运行后得到的结果,白线越多,代表缺失值越多。
再来验证一下,我们去掉rater1和rate2的缺失值。

players = players[players.rater1.notnull()]
msno.matrix(players.sample(500))

missingno库---缺失值可视化分析
看得出,rate1的白线没了,因为我们把缺失值给去掉了。所以白线没了。
我们还可以生成热度图。

msno.heatmap(players,figsize=(16, 7))#figsize是指图的大小

missingno库---缺失值可视化分析
生成了这样一个图,这个图的意思是,比如说rater1和rater2的热度值是1,代表的是,当rater1缺失时,rater2也百分之百缺失,表示的是两个特征之间的关系。

相关文章:

  • 2021-11-23
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2021-06-16
  • 2021-11-07
  • 2021-11-29
  • 2021-09-04
猜你喜欢
  • 2021-05-10
  • 2022-12-23
  • 2022-12-23
  • 2021-04-07
  • 2021-11-23
  • 2021-09-25
  • 2022-02-08
相关资源
相似解决方案