注:本文使用snappy算法进行压缩 内容在驱动类里面修改

方式一:在代码中进行设置压缩

设置map阶段的压缩

Configuration configuration = new Configuration();
configuration.set(“mapreduce.map.output.compress”,“true”);
configuration.set(“mapreduce.map.output.compress.codec”,“org.apache.hadoop.io.compress.SnappyCodec”);

设置reduce阶段的压缩

configuration.set(“mapreduce.output.fileoutputformat.compress”,“true”);
configuration.set(“mapreduce.output.fileoutputformat.compress.type”,“RECORD”);
configuration.set(“mapreduce.output.fileoutputformat.compress.codec”,“org.apache.hadoop.io.compress.SnappyCodec”);

方式二:配置全局的MapReduce压缩

修改mapred-site.xml配置文件,然后重启集群,以便对所有的mapreduce任务进行压缩
map输出数据进行压缩

mapreduce.map.output.compress true mapreduce.map.output.compress.codec org.apache.hadoop.io.compress.SnappyCodec

reduce输出数据进行压缩

mapreduce.output.fileoutputformat.compress
true

mapreduce.output.fileoutputformat.compress.type
RECORD

mapreduce.output.fileoutputformat.compress.codec
org.apache.hadoop.io.compress.SnappyCodec

所有节点都要修改mapred-site.xml,修改完成之后记得重启集群

hadoop支持的压缩算法
MapReduce如何开启压缩算法对结果进行压缩

各种压缩算法对应使用的java类

MapReduce如何开启压缩算法对结果进行压缩

常见的压缩速率比较

MapReduce如何开启压缩算法对结果进行压缩
snappy比以上压缩算法都要快

相关文章:

  • 2023-03-09
  • 2022-12-23
  • 2021-10-16
  • 2021-08-31
  • 2021-12-02
  • 2021-05-08
  • 2022-12-23
  • 2021-06-25
猜你喜欢
  • 2021-10-19
  • 2021-09-28
  • 2022-12-23
  • 2021-07-09
  • 2022-01-11
  • 2022-02-01
  • 2021-09-04
相关资源
相似解决方案