作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

Hadoop综合大作业 要求:

1.将爬虫大作业产生的csv文件上传到HDFS

Hadoop综合大作业
    





            
Hadoop综合大作业

Hadoop综合大作业
    





            
Hadoop综合大作业

Hadoop综合大作业
    





            
Hadoop综合大作业

 

 3.把hdfs中的文本文件最终导入到数据仓库Hive中

 Hadoop综合大作业
    





            
Hadoop综合大作业

 

 4.删除文件第一行记录,即字段名称

Hadoop综合大作业
    





            
Hadoop综合大作业

5.用Hive对爬虫大作业产生的进行数据分析,写一篇博客描述你的分析过程和分析结果。(10条以上的查询分析)

(1)查询前二十条信息的评论时间

Hadoop综合大作业
    





            
Hadoop综合大作业

(2)查询前二十条评论点赞数

 Hadoop综合大作业
    





            
Hadoop综合大作业

(3)查询前二十条评论的用户

Hadoop综合大作业
    





            
Hadoop综合大作业

(4)查询前20个用户的观看情况

Hadoop综合大作业
    





            
Hadoop综合大作业

(5)查询前20个用户的评分情况

Hadoop综合大作业
    





            
Hadoop综合大作业

(6)查询前3条评论

Hadoop综合大作业
    





            
Hadoop综合大作业

(7)查询不重复id的评论数

Hadoop综合大作业
    





            
Hadoop综合大作业

(8)查询不重复昵称的评论数

Hadoop综合大作业
    





            
Hadoop综合大作业

总结分析:第一次在hadoop上分析数据,估计很容易发生一些不知名的错误,通过对在豆瓣对电影《流浪地球》的相关数据分析可以发现:网友对《流浪地球》评分相当高,有65%的推荐率和25%的力荐率。从词云可以看出来《流浪地球》的评论中科幻电影,中国,科幻,国产出现频率很高,可以看出网友把这种高质量的科幻片和中国,国产联系起来。因此网友应该对于国产科幻片开始有一定的信心。最后从数据分析来看《流浪地球》是值得一看的国产科幻片。

作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

Hadoop综合大作业 要求:

1.将爬虫大作业产生的csv文件上传到HDFS

Hadoop综合大作业
    





            
Hadoop综合大作业

Hadoop综合大作业
    





            
Hadoop综合大作业

Hadoop综合大作业
    





            
Hadoop综合大作业

 

 3.把hdfs中的文本文件最终导入到数据仓库Hive中

 Hadoop综合大作业
    





            
Hadoop综合大作业

 

 4.删除文件第一行记录,即字段名称

Hadoop综合大作业
    





            
Hadoop综合大作业

5.用Hive对爬虫大作业产生的进行数据分析,写一篇博客描述你的分析过程和分析结果。(10条以上的查询分析)

(1)查询前二十条信息的评论时间

Hadoop综合大作业
    





            
Hadoop综合大作业

(2)查询前二十条评论点赞数

 Hadoop综合大作业
    





            
Hadoop综合大作业

(3)查询前二十条评论的用户

Hadoop综合大作业
    





            
Hadoop综合大作业

(4)查询前20个用户的观看情况

Hadoop综合大作业
    





            
Hadoop综合大作业

(5)查询前20个用户的评分情况

Hadoop综合大作业
    





            
Hadoop综合大作业

(6)查询前3条评论

Hadoop综合大作业
    





            
Hadoop综合大作业

(7)查询不重复id的评论数

Hadoop综合大作业
    





            
Hadoop综合大作业

(8)查询不重复昵称的评论数

Hadoop综合大作业
    





            
Hadoop综合大作业

总结分析:第一次在hadoop上分析数据,估计很容易发生一些不知名的错误,通过对在豆瓣对电影《流浪地球》的相关数据分析可以发现:网友对《流浪地球》评分相当高,有65%的推荐率和25%的力荐率。从词云可以看出来《流浪地球》的评论中科幻电影,中国,科幻,国产出现频率很高,可以看出网友把这种高质量的科幻片和中国,国产联系起来。因此网友应该对于国产科幻片开始有一定的信心。最后从数据分析来看《流浪地球》是值得一看的国产科幻片。

相关文章:

  • 2021-07-10
猜你喜欢
  • 2021-12-04
  • 2021-11-20
相关资源
相似解决方案