【问题标题】:Spark Bzip2 compression ratio is not efficientSpark Bzip2 压缩比效率不高
【发布时间】:2022-06-16 23:16:48
【问题描述】:

今天我正在寻求您的帮助,以解决过去几天遇到的 bzip2 压缩问题。我们需要将我们的输出文本文件压缩成 bzip2 格式。

问题是我们只能从未压缩的 5 Gb 传递到使用 bzip2 压缩的 3.2 Gb。看到其他项目将他们的 5 GB 文件压缩到只有 400 Mb,我想知道是不是做错了什么。

这是我的代码:

iDf
  .repartition(iNbPartition)
  .write
  .option("compression","bzip2")
  .mode(SaveMode.Overwrite)
  .text(iOutputPath)

我也在导入这个编解码器:

import org.apache.hadoop.io.compress.BZip2Codec

除此之外,我没有在我的 spark-submit 中设置任何配置,因为我尝试了很多都没有运气。

非常感谢您对此提供的帮助。

【问题讨论】:

  • 您是否尝试过使用其他 bzip 工具压缩相同的数据?当且仅当其他 bzip 提供更好的性能时,您才会怀疑当前的 bzip 是否存在问题。压缩取决于太多的事情,没有比较就可以得出任何结论。
  • 感谢您的回答,您能告诉我还有哪些其他 bzip2 工具吗?我正在尝试压缩其他团队正在压缩的相同数据(5 gb 的日志),他们得到 400Mb,我得到 3.2 gb。唯一的区别是我从 hive 中读取未压缩的数据,他们从 json 文件中读取它..

标签: scala apache-spark compression bzip2


【解决方案1】:

感谢您的帮助,解决方案在算法 bzip 本身中。实际上,鉴于我的数据是以随机方式匿名化的,算法不再有效是非常随机的。

再次感谢您

【讨论】:

    猜你喜欢
    • 2012-12-12
    • 1970-01-01
    • 2011-01-20
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-01-19
    相关资源
    最近更新 更多