【发布时间】:2015-08-20 19:04:02
【问题描述】:
我想将数据导出到单独的文本文件;我可以用这个 hack 做到这一点:
for r in sqlContext.sql("SELECT DISTINCT FIPS FROM MY_DF").map(lambda r: r.FIPS).collect():
sqlContext.sql("SELECT * FROM MY_DF WHERE FIPS = '%s'" % r).rdd.saveAsTextFile('county_{}'.format(r))
使用Spark 1.3.1/Python 数据帧的正确方法是什么?我想在一份工作中完成,而不是 N(或 N + 1)份工作。
可能是:
saveAsTextFileByKey()
【问题讨论】:
-
在 PySpark 1.4+ 中有一种方法可以做到这一点:stackoverflow.com/a/37150604/877069
标签: python apache-spark dataframe