【发布时间】:2022-06-16 23:16:48
【问题描述】:
今天我正在寻求您的帮助,以解决过去几天遇到的 bzip2 压缩问题。我们需要将我们的输出文本文件压缩成 bzip2 格式。
问题是我们只能从未压缩的 5 Gb 传递到使用 bzip2 压缩的 3.2 Gb。看到其他项目将他们的 5 GB 文件压缩到只有 400 Mb,我想知道是不是做错了什么。
这是我的代码:
iDf
.repartition(iNbPartition)
.write
.option("compression","bzip2")
.mode(SaveMode.Overwrite)
.text(iOutputPath)
我也在导入这个编解码器:
import org.apache.hadoop.io.compress.BZip2Codec
除此之外,我没有在我的 spark-submit 中设置任何配置,因为我尝试了很多都没有运气。
非常感谢您对此提供的帮助。
【问题讨论】:
-
您是否尝试过使用其他 bzip 工具压缩相同的数据?当且仅当其他 bzip 提供更好的性能时,您才会怀疑当前的 bzip 是否存在问题。压缩取决于太多的事情,没有比较就可以得出任何结论。
-
感谢您的回答,您能告诉我还有哪些其他 bzip2 工具吗?我正在尝试压缩其他团队正在压缩的相同数据(5 gb 的日志),他们得到 400Mb,我得到 3.2 gb。唯一的区别是我从 hive 中读取未压缩的数据,他们从 json 文件中读取它..
标签: scala apache-spark compression bzip2