【发布时间】:2018-02-23 16:12:00
【问题描述】:
我正在将 Spark 数据帧保存到 S3 存储桶。保存文件的默认存储类型是标准。我需要它是 STANDARD_IA。实现这一目标的选择是什么。我查看了 spark 源代码,在 https://github.com/apache/spark/blob/branch-2.1/sql/core/src/main/scala/org/apache/spark/sql/DataFrameWriter.scala 中没有发现 spark DataFrameWriter 的此类选项
以下是我用来写入 S3 的代码:
val df = spark.sql(<sql>)
df.coalesce(1).write.mode("overwrite").parquet(<s3path>)
编辑:我现在正在使用 CopyObjectRequest 来更改创建的 parquet 的存储类型:
val copyObjectRequest = new CopyObjectRequest(bucket, key, bucket, key).withStorageClass(<storageClass>)
s3Client.copyObject(copyObjectRequest)
【问题讨论】: