Spark Bzip2 压缩比效率不高答案

【问题标题】：Spark Bzip2 compression ratio is not efficientSpark Bzip2 压缩比效率不高
【发布时间】：2022-06-16 23:16:48
【问题描述】：

今天我正在寻求您的帮助，以解决过去几天遇到的 bzip2 压缩问题。我们需要将我们的输出文本文件压缩成 bzip2 格式。

问题是我们只能从未压缩的 5 Gb 传递到使用 bzip2 压缩的 3.2 Gb。看到其他项目将他们的 5 GB 文件压缩到只有 400 Mb，我想知道是不是做错了什么。

这是我的代码：

iDf
  .repartition(iNbPartition)
  .write
  .option("compression","bzip2")
  .mode(SaveMode.Overwrite)
  .text(iOutputPath)

我也在导入这个编解码器：

import org.apache.hadoop.io.compress.BZip2Codec

除此之外，我没有在我的 spark-submit 中设置任何配置，因为我尝试了很多都没有运气。

非常感谢您对此提供的帮助。

【问题讨论】：

您是否尝试过使用其他 bzip 工具压缩相同的数据？当且仅当其他 bzip 提供更好的性能时，您才会怀疑当前的 bzip 是否存在问题。压缩取决于太多的事情，没有比较就可以得出任何结论。
感谢您的回答，您能告诉我还有哪些其他 bzip2 工具吗？我正在尝试压缩其他团队正在压缩的相同数据（5 gb 的日志），他们得到 400Mb，我得到 3.2 gb。唯一的区别是我从 hive 中读取未压缩的数据，他们从 json 文件中读取它..

【解决方案1】：

感谢您的帮助，解决方案在算法 bzip 本身中。实际上，鉴于我的数据是以随机方式匿名化的，算法不再有效是非常随机的。

再次感谢您

【讨论】：