Hadoop设置最大同时mapreduce任务在伪模式下不起作用答案

【问题标题】：Hadoop setting maxium simultaneous map/reduce task does not work in Psedue modeHadoop设置最大同时mapreduce任务在伪模式下不起作用
【发布时间】：2015-10-14 16:26:36
【问题描述】：

我在单台机器（4 核）中配置了 hadoop 2.4.1 以使用 Psedue 分布式模式，并且我能够通过 HDFS 输入文件上的 hadoop shell 命令运行我的 map/reduce 程序。

但我注意到 map 和 reduce 看起来仍然在单线程中运行。所以我尝试将属性 mapreduce.tasktracker.map.tasks.maximum 和 mapreduce.tasktracker.reduce.tasks.maximum 硬编码为 4。（只是为了尝试，我知道这不是理想的设置）。但我仍然看到 map 和 reduce 任务在串行运行。

我的配置方式是修改etc/hadoop/mapred-site.xml包含如下：

<configuration>
    <property>
        <name> mapreduce.tasktracker.map.tasks.maximum </name>
        <value> 4 </value>
    </property>

    <property>
        <name> mapreduce.tasktracker.reduce.tasks.maximum </name>
        <value> 4 </value>
    </property>
</configuration>

并使用命令重启TaskTracker节点

sbin/hadoop-daemon.sh stop tasktracker
sbin/hadoop-daemon.sh start tasktracker

本文紧随其后：https://www.ibm.com/developerworks/community/wikis/home?lang=en#!/wiki/W265aa64a4f21_43ee_b236_c42a1c875961/page/Tuning%20number%20of%20map%20and%20reduce%20slots%20on%20a%20TaskTracker%20node

我得出结论它仍然在单线程中运行的方式是，我尝试在构造映射器对象或减少对象时通过覆盖构造函数来打印一些东西。然后它表明映射器是在映射器运行的时间一个接一个均匀地构造的，reducer 也是一个一个地均匀地在运行的时间构造的。

我在这里缺少什么？

【问题讨论】：

我发现调用 hadoop-daemon.sh 停止和启动可能是错误的，它告诉我不再支持任务跟踪器命令

标签： java multithreading hadoop mapreduce

【解决方案1】：

我发现我使用的 Hadoop 版本不再支持启动和停止 TaskTracker。对于不同的版本，这里和那里有两个许多令人困惑的信息，它们混淆了。

在我配置并启动 Yarn 之后，看起来 map 和 reduce 任务现在确实以某种并发方式运行。（根据https://hadoop.apache.org/docs/r2.4.1/hadoop-project-dist/hadoop-common/SingleCluster.html设置）。在运行较大的数据集时（大概跑2分钟），跑2个maximum map和2个maximum reduce可以带来10秒左右的提升，这也是有一定道理的。

在我看来，这两个参数 mapreduce.tasktracker.map.tasks.maximum 和 mapreduce.tasktracker.reduce.tasks.maximum 似乎不再生效，尽管我没有看到任何文件证实这一点。

相反，Yarn 接管了资源管理的所有控制权，Slot 的概念消失了，而出现了 Container 和 VCore 等。如下所示的组合设置决定了节点可以运行的并发程度。

http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/cdh_ig_yarn_tuning.html

这是我自己的理解，但需要更多确认。

【讨论】：