【发布时间】:2018-01-23 08:46:32
【问题描述】:
我必须计算用户发推文的次数,数据保存在 JSON 文件中。我尝试了groupByKey 和reduceByKey,但输出的是用户 ID 和推文本身,而不是推文的数量。
代码:
from pyspark import SparkContext
from pyspark.sql import SQLContext
sc = SparkContext("local", "Twitter")
sqlc = SQLContext(sc)
df = sqlc.read.json("file.json")
tweets = df.select("user.id","text")
users = tweets.rdd.reduceByKey(lambda x,y:x+y)
如何获取各自用户的推文计数作为关键?
【问题讨论】:
标签: python apache-spark pyspark