当在Map阶段输入数据逻辑上很大(二十G)(存在hdfs上实际都是以64M的块存储),

而你的集群数量不是很大(只有十台),

这样造成会有很多的Map(320个),

造成map效率不是很高

这里可以通过设置 Configuration

Configuration defaultConf = new Configuration();

defaultConf.set("mapred.min.split.size", "134217728"); //默认为64M,这里改为128M

来增大map的split的大小

将Map数减少为160个

hadoop版本:1.0.4

相关文章:

  • 2021-07-27
  • 2021-12-06
  • 2022-12-23
  • 2021-12-01
  • 2021-11-18
  • 2021-10-23
猜你喜欢
  • 2022-01-03
  • 2021-06-06
  • 2021-11-20
  • 2021-05-01
  • 2022-02-02
  • 2021-08-21
相关资源
相似解决方案