【问题标题】:Spark scala join each group in data frame with other reference data frameSpark scala将数据框中的每个组与其他参考数据框连接起来
【发布时间】:2016-09-19 14:04:36
【问题描述】:

我有以下两个数据框。我想对输入数据框进行分组,并将每个组与日期列上的参考数据框连接起来。

   %>input.show()

  sid|date                 |count
  200|2016-04-30 18:00     | 10
  100|2016-04-30 18:00     | 2
  200 |2016-04-30 21:00    | 5
  100|2016-04-30 21:00     | 4

    %>reference.show()
   id|date           
   1|2016-04-30 18:00  
   2|2016-04-30 21:00  

   expected output
   id|sid|date             |count
   1|200|2016-04-30 18:00  |10
   2|200|2016-04-30 21:00  |5
   1|100|2016-04-30 18:00  |2
   2|100|2016-04-30 21:00  |4

【问题讨论】:

  • 到目前为止你有什么尝试?

标签: scala join apache-spark dataframe


【解决方案1】:

普通连接:

reference.join(input, Array("date"))

【讨论】:

  • 谢谢!。即使输入数据框中没有匹配的行,如何获取所有参考行。
  • 谢谢!。如何从输入数据帧中的所有 sid(s) 的参考数据帧中获取不匹配的行。
  • 这个解决方案真的有效吗?您能否在数组和分组列上添加更多内容。
猜你喜欢
  • 2019-03-13
  • 1970-01-01
  • 2022-12-12
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2021-09-02
  • 2016-08-13
相关资源
最近更新 更多