【发布时间】:2017-11-01 14:23:23
【问题描述】:
我有一个非常大的 pyspark 数据框。所以我想对它的子集进行预处理,然后将它们存储到hdfs。稍后我想阅读所有这些并合并在一起。谢谢。
【问题讨论】:
标签: python hadoop pyspark hdfs spark-dataframe
我有一个非常大的 pyspark 数据框。所以我想对它的子集进行预处理,然后将它们存储到hdfs。稍后我想阅读所有这些并合并在一起。谢谢。
【问题讨论】:
标签: python hadoop pyspark hdfs spark-dataframe
将 DataFrame 写入 HDFS (Spark 1.6)。
df.write.save('/target/path/', format='parquet', mode='append') ## df is an existing DataFrame object.
一些格式选项是csv、parquet、json 等。
从 HDFS (Spark 1.6) 读取 DataFrame。
from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
sqlContext.read.format('parquet').load('/path/to/file')
格式方法接受parquet、csv、json等参数。
【讨论】:
hdfs dfs -rm -rf <path> 这样的 HDFS shell 命令。您可以使用 python 子进程执行此操作,例如 subprocess.call(["hdfs", "dfs", "-rm", "-rf", path])