Python Spark Dataframes：将组导出到文本文件的更好方法答案

【问题标题】：Python Spark Dataframes: Better way to export groups to text filePython Spark Dataframes：将组导出到文本文件的更好方法
【发布时间】：2015-08-20 19:04:02
【问题描述】：

我想将数据导出到单独的文本文件；我可以用这个 hack 做到这一点：

for r in sqlContext.sql("SELECT DISTINCT FIPS FROM MY_DF").map(lambda r: r.FIPS).collect():
    sqlContext.sql("SELECT * FROM MY_DF WHERE FIPS = '%s'" % r).rdd.saveAsTextFile('county_{}'.format(r))

使用Spark 1.3.1/Python 数据帧的正确方法是什么？我想在一份工作中完成，而不是 N（或 N + 1）份工作。

可能是：

saveAsTextFileByKey()

【问题讨论】：

在 PySpark 1.4+ 中有一种方法可以做到这一点：stackoverflow.com/a/37150604/877069
Write to multiple outputs by key Spark - one Spark job的可能重复

标签： python apache-spark dataframe

【解决方案1】：

Spark 通常没有具有多个输出的 RDD 操作。但是对于写文件有一个很好的技巧：Write to multiple outputs by key Spark - one Spark job

【讨论】：

抱歉，我不知道 PySpark 是否可以做到这一点。我没有使用 Python 界面的经验。
嘿，是的。看到这个帖子，但是不清楚在python端如何实现。
这可能是不可能的。虽然 PySpark 涵盖了大部分 Spark API，但您也需要访问 Hadoop 文件 API 才能完成这项工作。希望您的赏金能吸引真正了解 Python API 的人！