1.数据准备

hadoop大作业

2.把CSV添加到/bigdatacase/dataset中

hadoop大作业

3.检查前5行并删除第一行

hadoop大作业

4.将csv文件导入hadoop并检查前10行数据情况

hadoop大作业

5.数据文件导入hive

hadoop大作业

hadoop大作业

6.在Hive中查看并分析数据

hadoop大作业

hadoop大作业

统计出用户所找小区数量最多的10个小区

可见未来世界花园小区深受人们居住的首选

7.:出现的问题解决:
在HIVE中进行查询时,会出现“无法分配内存”,后来内存调了解决问题

8.使用jieba根据字典分词,字典中存放了东莞所有镇区名字,

wordcloud生成词云图。

hadoop大作业

9.XGeocoding获取坐标

将爬取生成的csv文件导入XGeocoding中批量获取经纬度

 hadoop大作业

 

Tableau可视化处理

将XGeocoding获取的坐标整合到csv中,作为数据源导入Tableau,设置维度经纬度为列行,地图使用高德的tms离线包,即可在地图中显示坐标点,再加入价格等参数进行数据可视化处理。

hadoop大作业

 

 

 

9.可视化分析结果:

房源热力图

 

 hadoop大作业

 

热力图更直观的看出来东莞城区和虎门镇房源更加密集

 hadoop大作业

 

均价图

 hadoop大作业

 

均价可以间接看出来哪里比较繁华,郊区的均价偏低

 

房价图

 hadoop大作业

 

可以看出来,东莞的二手房价大部分都低于或等于平均值(绿色),部分房价高(红色)的一般都是依山傍水

 

相关文章:

  • 2021-11-20
猜你喜欢
  • 2021-07-01
  • 2021-12-04
  • 2021-11-25
  • 2021-11-27
相关资源
相似解决方案