覆盖 hadoop 用户日志 |特定队列答案

【问题标题】：override hadoop user logs | queue specific覆盖 hadoop 用户日志 |特定队列
【发布时间】：2016-08-25 06:43:30
【问题描述】：

我有一个在 300 个节点的集群中运行的 hadoop 作业，对于我的作业，我有一个特定的队列，作业将在其中执行。

作业在生产环境中运行良好，但它在 userlogs 文件夹下为特定应用程序 id 生成了太多日志，我执行了 hadoop 合并命令并获取了 290 GB 大小的文件。

我可以在 syslog 中看到过多的 hadoop 日志记录。

我对此有一些疑问，如果有人可以指导我，那将对我有很大帮助 -

1)- syslog 中的日志基于输入数据

2)- 基于 hive 查询的 syslog 日志（我可以看到所有条目都与 Hadoop 处理有关，我认为 hive 查询对日志的过度创建没有任何影响）

3)- 是否有任何方法可以减少在大型集群中运行的任何特定作业的系统日志中的信息，并干扰集群配置（对于其他作业）

【问题讨论】：

【解决方案1】：

hadoop 中的日志显示来自 YARN 的容器分配、映射、归约到最终写入结果的数据。
在 Hadoop 集群上执行 Hive 期间的日志记录由 Hadoop 配置。通常 Hadoop 会为每个映射生成一个日志文件并减少存储在任务所在的集群机器上的任务执行。日志文件可以通过点击进入来自 Hadoop JobTracker Web UI 的任务详细信息页面。

参考：Hive Logging
要配置 Hadoop 日志，请参阅：How To Configure-Log4j_Configuration

【讨论】：