【发布时间】:2015-06-17 03:28:08
【问题描述】:
我目前正在一个 Hadoop - 2.3.0 集群上运行一些 MapReduce 作业,该集群有 8 个从节点,但这些作业的执行时间比预期的要长。
如何测试map(或reduce)任务是否并行运行?
还有哪些属性必须在配置文件中修改,以便 Mappers(在本例中为 8 个)并行运行。
【问题讨论】:
标签: java hadoop parallel-processing mapreduce
我目前正在一个 Hadoop - 2.3.0 集群上运行一些 MapReduce 作业,该集群有 8 个从节点,但这些作业的执行时间比预期的要长。
如何测试map(或reduce)任务是否并行运行?
还有哪些属性必须在配置文件中修改,以便 Mappers(在本例中为 8 个)并行运行。
【问题讨论】:
标签: java hadoop parallel-processing mapreduce
Hadoop 带有几个 Web 界面,默认情况下可在以下位置使用:
http://namenode1_server_ip_address:50070 -HDFS namenode1 的Web UI http://namenode2_server_ip_address:50070 -HDFS namenode2 的 Web UI http://resource_manager_server_ip_address:8088 – MapReduceJobTracker 的 Web UI http://job_history_server_ip_address:19888 – TaskTracker 的 Web UI
通过使用这些全 Web 用户界面,您可以检查所有 hadoop 映射器、reducer、活动名称节点、数据节点等的状态。
【讨论】:
您应该检查 Hadoop 集群 Web 界面。
转到跟踪您的工作状态的网址,查找类似于以下内容的行:
15/04/11 17:29:07 INFO mapreduce.Job:跟踪作业的 url:http://hadoopsrv:60540/proxy/application_1428349332728_0303/
此网页显示作业状态(成功/失败...)、每个任务完成的时间、map/reduce 任务的数量及其状态、日志等...
【讨论】: