【问题标题】:How the Hadoop History Server is working?Hadoop 历史服务器是如何工作的?
【发布时间】:2018-11-13 02:42:20
【问题描述】:
我对配置文件中的两个属性感到困惑:
-
yarn-site.xml 中的属性yarn.nodemanager.remote-app-log-dir:
a.) 此属性控制 map/reduce 任务的日志将记录在哪里?
b.) 这是节点管理器 (NM) 的职责吗?
-
mapreduce.jobhistory.done-dir 来自mapred-site.xml 的属性:
a.) 与作业相关的文件(如配置等)存储在此位置?
b.) 这是 Application Master (AM) 的职责吗?
历史服务器 (HS) 是否结合这两种信息并在 UI 中显示整合信息?
【问题讨论】:
标签:
mapreduce
hdfs
hadoop-yarn
hadoop2
【解决方案1】:
假设您已启用日志聚合,
-
1.a. 这是日志聚合目录,通常是 NM 将容器日志聚合到的 HDFS。
-
1.b. 是的。
-
2.a. 是的。
-
2.b. 不会。MR JobHistory Server 会这样做,方法是从 ${mapreduce.jobhistory.intermediate-done- 删除 JobSummary 文件并将其他文件 mv 到 ${mapreduce.jobhistory.done-dir}目录}。
-
3. 是的。 MR JobHistory Server Web,包括作业信息(来自 ${mapreduce.jobhistory.done-dir})和容器日志(来自 ${yarn.nodemanager.remote-app-log-dir})。