【发布时间】:2019-09-09 12:58:36
【问题描述】:
我想用 Gzip 编码将数据帧作为 csv 文件上传到服务器,而不将其保存在光盘上。
使用spark-csv lib 可以很容易地构建一些带有 Gzip 编码的 csv 文件:
df.write
.format("com.databricks.spark.csv")
.option("header", "true")
.option("codec", "org.apache.hadoop.io.compress.GzipCodec")
.save(s"result.csv.gz")
但我不知道如何获取Array[Byte],代表我的DataFrame,我可以通过HTTP 上传
【问题讨论】:
标签: scala apache-spark spark-csv