统计微博信息
试题描述:
有一个数据文件,它包含如下格式的两列数据
11111111 12743457
11111111 16386587
11111111 19764388
11111111 12364375
11111111 13426275
11111111 12356363
11111111 13256236
11111111 10000032
11111111 10000001
11111111 10000001
11111111 10000001
11111112 12743457
其中,第1列和第2列都是表示用户ID,表中的数据是表示第1列的用户关注了第2列用户。
(1)在spark-shell交互式环境中执行,请统计出一共有多少个不同的ID;(30分)
(2)在spark-shell交互式环境中执行,统计出一共有多少个不同的(ID,ID)对;(30分)
(3)在spark-shell交互式环境中执行,统计出每个用户的粉丝数量.并且把统计结果写入到HDFS文件中(40分);注:每行数据的含义是第1列用户关注第2列用户,所以,每当用户u有一个粉丝时,就会在bloginfo.txt中存在一条表示关注信息的记录,所以,只要统计出第2列中有多少条记录包含用户u,就可以知道用户u一共有多少个粉丝