【发布时间】:2020-11-08 22:36:19
【问题描述】:
我有以下 spark 数据框。
Column_1 Column_2 Column_3 Column_4 Column_5
1 A A Y C
2 B D N E
3 A C N Z
4 F G Y H
我需要的输出是一个数据框,其中包含从第 2、3 和 5 列中删除的重复项。当 column_4 为 Y 时,应过滤 Column_5 并将其添加到输出中。如果为 N,则应忽略 column_5 值。
所需的输出数据帧
Column_1
A
B
F
D
C
G
H
到目前为止我尝试了什么:
我通过在每列中删除重复项来做到这一点。在第 4 列上应用过滤器,最后对所有列进行联合,以获得带有列的最终输出数据框。
在 Java spark 中有没有更好的方法来做到这一点。可能不使用 UDF。
【问题讨论】:
标签: java dataframe apache-spark