【问题标题】:Python Spark Dataframes: Better way to export groups to text filePython Spark Dataframes:将组导出到文本文件的更好方法
【发布时间】:2015-08-20 19:04:02
【问题描述】:

我想将数据导出到单独的文本文件;我可以用这个 hack 做到这一点:

for r in sqlContext.sql("SELECT DISTINCT FIPS FROM MY_DF").map(lambda r: r.FIPS).collect():
    sqlContext.sql("SELECT * FROM MY_DF WHERE FIPS = '%s'" % r).rdd.saveAsTextFile('county_{}'.format(r))

使用Spark 1.3.1/Python 数据帧的正确方法是什么?我想在一份工作中完成,而不是 N(或 N + 1)份工作。

可能是:

saveAsTextFileByKey()

【问题讨论】:

标签: python apache-spark dataframe


【解决方案1】:

Spark 通常没有具有多个输出的 RDD 操作。但是对于写文件有一个很好的技巧:Write to multiple outputs by key Spark - one Spark job

【讨论】:

  • 抱歉,我不知道 PySpark 是否可以做到这一点。我没有使用 Python 界面的经验。
  • 嘿,是的。看到这个帖子,但是不清楚在python端如何实现。
  • 这可能是不可能的。虽然 PySpark 涵盖了大部分 Spark API,但您也需要访问 Hadoop 文件 API 才能完成这项工作。希望您的赏金能吸引真正了解 Python API 的人!
猜你喜欢
  • 2018-02-11
  • 1970-01-01
  • 2021-10-15
  • 1970-01-01
  • 1970-01-01
  • 2018-04-05
  • 1970-01-01
  • 1970-01-01
  • 2019-08-07
相关资源
最近更新 更多