【发布时间】:2020-12-25 20:21:39
【问题描述】:
我正在使用 Scala 和 Spark。 我有两个数据框。
第一个如下:
+------+------+-----------+
| num1 | num2 | arr |
+------+------+-----------+
| 25 | 10 | [a,c] |
| 35 | 15 | [a,b,d] |
+------+------+-----------+
在第二个中,数据帧头是
num1, num2, a, b, c, d
我通过添加所有可能的标题列创建了一个案例类。
现在我想要的是,通过匹配列 num1 和 num2,我必须检查是否 arr 列中的数组包含第二个数据帧的标题。 如果是这样,则该值应为 1,否则为 0。
所以需要的输出是:
+------+------+---+---+---+---+
| num1 | num2 | a | b | c | d |
+------+------+---+---+---+---+
| 25 | 10 | 1 | 0 | 1 | 0 |
| 35 | 15 | 1 | 1 | 0 | 1 |
+------+------+---+---+---+---+
【问题讨论】:
标签: arrays scala dataframe apache-spark match