【问题标题】:pyspark dataframe to valid jsonpyspark 数据帧到有效的 json
【发布时间】:2022-03-01 21:31:02
【问题描述】:

我正在尝试将数据帧转换为有效的 json 格式,但是我还没有成功。

如果我这样做:

fullDataset.repartition(1).write.json(f'{mount_point}/eds_ckan', mode='overwrite', ignoreNullFields=False)

我只得到这样的基于行的 json:

{"col1":"2021-10-09T12:00:00.000Z","col2":336,"col3":0.0}
{"col1":"2021-10-16T20:00:00.000Z","col2":779,"col3":6965.396}
{"col1":"2021-10-17T12:00:00.000Z","col2":350,"col3":0.0}

有谁知道如何将其转换为非基于行的有效 json?

【问题讨论】:

标签: json azure pyspark databricks


【解决方案1】:

以下是将数据帧转换为有效 Json 的示例示例

尝试使用Collect,然后使用json.dump

import json
collected_df = df_final.collect()
with open(data_output_file + 'createjson.json', 'w') as outfile:
    json.dump(data, outfile)

这里有一些相关讨论的链接,您可以通过这些链接获取完整信息。

Dataframe to valid JSON

Valid JSON in spark

【讨论】:

    猜你喜欢
    • 2021-08-06
    • 1970-01-01
    • 1970-01-01
    • 2018-04-22
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-08-30
    • 1970-01-01
    相关资源
    最近更新 更多