【发布时间】:2015-09-02 14:32:26
【问题描述】:
我正在构建一个 Python 脚本,我需要在其中从 json RDD 生成一个 json 文件。 以下是保存json文件的代码sn-p。
jsonRDD.map(lambda x :json.loads(x))
.coalesce(1, shuffle=True).saveAsTextFile('examples/src/main/resources/demo.json')
但我需要将 json 数据写入单个文件,而不是将数据分布在多个分区中。
所以请给我建议合适的解决方案
【问题讨论】:
标签: apache-spark pyspark rdd