二手房数据分析项目流程
1.首先导入数据集,查看数据集是否有缺失值2.显示每一项的总数,查看是否有缺失值(发现Elevator列有大量数据缺失)
3.将数据用百分比形式进行展示
发现疑惑点:Ⅰ:有2平方的房子吗?Ⅱ:存在57层的居民楼吗?4.因为数据没有每平方价钱,就自己添加一项,方便接下来作图让数据展现更加清晰。
把不重要的列进行去除,并根据个人习惯将数据重新排。5.做可视化
(1)Region(区域)特征分析;先进行区域分组;房数量和每平米房价 (2)Size(平方数)特征分析;建房时间分布;建房时间与价格分布
通过图发现问题:
面积不到10平米,价格超出10000万;
一个点面积超过了1000平米,价格很低;
需要移除不需要内容 (3)对Layout(户型)特征进行分析
(4)对Renovation(装修)特征分析
(5)Elevator(电梯)分析
发现问题:但是电梯数据有大量缺失,首先找到缺失值数量,因为缺失值为字符串,无法取平均数;可以假设6楼以上都有电梯,小于或等于6楼的没有电梯。 (6)Floor(层数)分析
6.总结:
整体项目就是从清洗数据,然后做一些稍微的修改,最后做数据可视化,去观察数据表达的内容。因为数据集是现成的,所以整个项目做起来比较简单。希望下一次可以做从爬取数据到最后可视化整个完成的流程。