【发布时间】:2017-06-04 04:52:52
【问题描述】:
我有一个数据框 df1,其中包含以下数据:
**customer_id** **product** **Val_id** **rule_name**
1 A 1 rule1
2 B X rule1
我有另一个数据框 df2,其中包含以下数据:
**customer_id** **product** **Val_id** **rule_name**
1 A 1 rule2
2 B X rule2
3 C y rule2
两个数据框中的规则名称值始终是固定的
我想要一个新的联合数据框 df3。它应该有来自数据框 df1 的所有客户和来自数据框 df2 的所有其他客户,这些客户在 df1 中不存在。所以最终的 df3 应该是这样的:
**customer_id** **product** **Val_id** **rule_name**
1 A 1 rule1
2 B X rule1
3 C y rule2
谁能帮我实现这个结果。任何帮助将不胜感激。
【问题讨论】:
标签: scala apache-spark apache-spark-sql