【发布时间】:2016-12-23 02:26:20
【问题描述】:
我有一个包含以下列的 Spark 数据框。
C1 | C2 | C3| C4
1 | 2 | 3 | S1
2 | 3 | 3 | S2
4 | 5 | 3 | S2
我想通过从 C4 列中获取不同的值来生成另一列 C5 像 C5
[S1,S2]
[S1,S2]
[S1,S2]
有人可以帮助我如何使用 Scala 在 Spark 数据框中实现这一点吗?
【问题讨论】:
-
你能解释一下与C4的关系,S2是如何在C5中生成的。如果 C4 中存在超过 2 个不同的值怎么办?
标签: scala apache-spark apache-spark-sql scala-collections