【发布时间】:2021-05-14 22:26:58
【问题描述】:
我有以下数据集。
Column_1 用逗号分隔,Column_2 和 Column_3 用冒号分隔。都是字符串列。
来自Column_1 的每个逗号分隔值都应该是Column_1 中的单独一行,并且应该填充来自Column_2 或Column_3 的等效值。将填充 column_2 或 column_3,但不会同时填充两者。
如果Column_1 中的值的数量与column_2 或column_3 中的等效值的数量不匹配,那么我们必须填充null(Column_1:I,J 和K,L)
Column_1 Column_2 Column_3
A,B,C,D NULL N1:N2:N3:N4
E,F N5:N6 NULL
G NULL N7
H NULL NULL
I,J NULL N8
K,L N9 NULL
我必须将分隔值转换为如下所示的行。
Column_1 Column_2
A N1
B N2
C N3
D N4
E N5
F N6
G N7
H NULL
I N8
J NULL
K N9
L NULL
有没有办法在不使用 UDF 的情况下在 Java spark API 中实现这一点。
【问题讨论】:
标签: java dataframe apache-spark apache-spark-sql