统计微博信息

 

试题描述:

有一个数据文件它包含如下格式的两列数据

11111111 12743457
11111111 16386587
11111111 19764388
11111111 12364375
11111111 13426275
11111111 12356363
11111111 13256236
11111111 10000032
11111111 10000001
11111111 10000001
11111111 10000001
11111112 12743457

 

其中1列和第2列都是表示用户ID,表中的数据是表示第1列的用户关注了第2列用户

(1)spark-shell交互式环境中执行请统计出一共有多少个不同的ID;(30)

spark面试题

(2)spark-shell交互式环境中执行统计出一共有多少个不同的(ID,ID)(30)

spark面试题

(3)spark-shell交互式环境中执行统计出每个用户的粉丝数量.并且把统计结果写入到HDFS文件中(40);:每行数据的含义是第1列用户关注第2列用户所以每当用户u有一个粉丝时就会在bloginfo.txt中存在一条表示关注信息的记录所以只要统计出第2列中有多少条记录包含用户u,就可以知道用户u一共有多少个粉丝

spark面试题



相关文章: