【发布时间】:2022-08-04 12:48:02
【问题描述】:
数据集中有一个数组字段,例如:
my_array:
[
{id: 1, value: x},
{id: 2, value: y}
]
如何使它像:
my_strcut: {
1: {value: x},
2: {value: y}
}
我试过map_from_entries 和transform,但仍然有结构数组作为输出。
更新
有一个从 json 读取数据的数据集。像这样的数据:
{\"id\":1, ... \"arrayOfStructs\" : [{\"name\": \"x\", \"key\":\"value\"}, {\"name\": \"y\", \"key\":\"value2\"}]}
输出应该是这样的:
{\"id\":1, ... \"structsOnly\" : { \"x\": {\"name\": \"x\", \"key\":\"value\"}}, { \"y\": {\"name\": \"y\", \"key\":\"value2\"}}}
-
对 ID 号作为列名感到好奇。它们在所有行中都相同吗? Spark DF 需要定义良好的架构和稳定的列名。
标签: scala apache-spark apache-spark-sql