【发布时间】:2016-10-27 21:02:48
【问题描述】:
使用预先存在的数据集
s3://data/id=1/file.parquet
s3://data/id=2/file.parquet
以及传入的数据帧
/data/id=3/
如果传入的数据是用SaveMode.Append写的
df.write.partitionBy("id").mode(SaveMode.Append).parquet("s3://data/")
如果将预先存在的数据集中的任何数据复制到创建的临时目录中,该怎么办?
【问题讨论】:
标签: apache-spark amazon-s3 parquet