作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339

 

1. 将爬虫大作业产生的 csv 文件上传到 HDFS

准备好的文件

期末综合大作业

 

在HDFS上创建 cjl/hive文件夹

通过使用 put 上传到HDFS

通过使用 ls 查看,上传成功

 

 

期末综合大作业

 

 

2. 对 CSV 文件处理生成无标题文本文件保存为UTF-8格式

使用 head 命令查看前 5行数据

期末综合大作业

 

 

 

3. 把 hdfs 中的文本文件最终导入到数据仓库 Hive 中

先开启mysql service

期末综合大作业

在Hive上创建 database,并使用

期末综合大作业

期末综合大作业

创建表db将HDFS文件的数据加载到表中

期末综合大作业

 

 

4. 在 Hive 中查看并分析数据

期末综合大作业

 

查询获赞前50的用户,获赞数

期末综合大作业

 

期末综合大作业

 

查询得到评论最多的30个用户,评论数

期末综合大作业

期末综合大作业

 

查询用户的男女比例

期末综合大作业

期末综合大作业

-1为用户未设置性别

0代表用户性别是女生

1代表用户性别是男生

如图所示,未知、女生、男生均占1/3.

 

查询用户评论时使用了图片的人数

期末综合大作业

期末综合大作业

 

查询评论为空的评论相关数据

期末综合大作业

 

查询使用匿名评论的用户人数

期末综合大作业

期末综合大作业

 

查询用户名未设置的用户人数

期末综合大作业

期末综合大作业

 

查询评论字数少于12字的用户名及评论

期末综合大作业

期末综合大作业

 

相关文章: