【发布时间】:2019-03-21 15:47:46
【问题描述】:
我无法在我的代码中对日期进行分组。
这是我目前的代码:
df_tipReview = spark.sql("""
SELECT R.user_id, R.date, COUNT(R.review_id), T.date
FROM reviews AS R INNER JOIN tips AS T
ON R.user_id = T.user_id
GROUP BY R.date, T.date, R.user_id
""")
df_tipReview.show(truncate=False)
输出:
https://i.stack.imgur.com/5EQMe.png
如您所见,相同的user_id 列出了相同的日期,我将如何在 Spark SQL 中聚合它,使其本质上看起来像:
|-55DgUo52I3zW9RxkZ-EAQ|2015-11-11| 3
而不是将它放在多行上。
谢谢。
所以当我尝试使用以下 distinct 函数时:
df_tipReview = spark.sql("""
SELECT DISTINCT R.user_id, R.date, COUNT(R.review_id), T.date
FROM reviews AS R INNER JOIN tips AS T
ON R.user_id = T.user_id
GROUP BY R.user_id, R.date, T.date
""")
df_tipReview.filter("R.user_id='-55DgUo52I3zW9RxkZ-EAQ'").show(truncate=False)
【问题讨论】:
-
您的输出只有 3 列。
T.date怎么了?请包含示例数据。 -
T.Date 对于每一行都是不同的,这就是为什么输出是这样的。删除 T.date
-
T.date 是一个不同的列,与 R.date 无关。我没有将它包含在图片中,因为它会影响它还是会影响它?
-
T.date 本质上是提示日期,R.date 是审查日期。他们是两个假设是两个不同的日期
-
那个描述没有多大帮助。显示示例输入和预期输出。
标签: sql sql-server apache-spark pyspark pyspark-sql