Spark 计算用户发推文的次数答案

【问题标题】：Spark calculate number of times a user has tweetedSpark 计算用户发推文的次数
【发布时间】：2018-01-23 08:46:32
【问题描述】：

我必须计算用户发推文的次数，数据保存在 JSON 文件中。我尝试了groupByKey 和reduceByKey，但输出的是用户 ID 和推文本身，而不是推文的数量。

代码：

from pyspark import SparkContext
from pyspark.sql import SQLContext

sc = SparkContext("local", "Twitter")
sqlc = SQLContext(sc)


df = sqlc.read.json("file.json")
tweets = df.select("user.id","text")
users = tweets.rdd.reduceByKey(lambda x,y:x+y)

如何获取各自用户的推文计数作为关键？

【问题讨论】：

标签： python apache-spark pyspark

【解决方案1】：

你只需要：

df.groupBy("user.id").count()

这个：

tweets.rdd.reduceByKey(lambda x,y:x+y)

只添加第二个元素（可能是str 连接结果）。

【讨论】：

【解决方案2】：

其实我找到了解决办法。希望这对某人有所帮助。

users = tweets.rdd.groupByKey().mapValues(len)

【讨论】：