【发布时间】:2021-01-02 17:36:18
【问题描述】:
我正在使用 pyspark 生成如下所示的嵌套 json:
{
"batch_key": 1,
"client_key": 1,
"client_name": "ABC",
"Claims": [
{
"claim_key": "A",
"client_key": "B",
"client_name": "ATT"
},
{
"claim_key": "B",
"client_key": "B",
"client_name": "ATT"
}
]
}
但理想情况下,它应该被分成相等的部分,如下所示:
{
"batch_key": 1,
"client_key": 1,
"client_name": "ABC",
"Claims": [
{
"claim_key": "A",
"client_key": "B",
"client_name": "ATT"
}
]
}
{
"batch_key": 1,
"client_key": 1,
"client_name": "ABC",
"Claims": [
{
"claim_key": "B",
"client_key": "B",
"client_name": "ATT"
}
]
}
实际的 json 负载会大得多,因此需要进行上述拆分,以便 API 可以正确使用它。有没有办法使用 sparksql/pyspark/python 实现上述目标?
【问题讨论】:
-
这个解决方案有效吗?
标签: python json apache-spark pyspark apache-spark-sql