【发布时间】:2021-05-10 19:37:05
【问题描述】:
我在 Spark DataFrame 中有一个包含两个元素的数组列,我需要获取具有特定模式而不是位置 id 的第二个元素。
输入数据帧:
+---+------------+----+
| id| objectid|name|
+---+------------+----+
|100|[100, AB100]| ABC|
|200|[200, AB200]| CDE|
+---+------------+----+
DataFrame 架构:
root
|-- id: integer (nullable = false)
|-- objectid: array (nullable = true)
| |-- element: string (containsNull = true)
|-- name: string (nullable = true)
预期输出:
+---+--------+----+
| id|objectid|name|
+---+--------+----+
|100| AB100| ABC|
|200| AB200| CDE|
+---+--------+----+
【问题讨论】:
-
在列上使用过滤器找到匹配值然后爆炸?
标签: apache-spark apache-spark-sql