【发布时间】:2016-08-25 06:43:30
【问题描述】:
我有一个在 300 个节点的集群中运行的 hadoop 作业,对于我的作业,我有一个特定的队列,作业将在其中执行。
作业在生产环境中运行良好,但它在 userlogs 文件夹下为特定应用程序 id 生成了太多日志,我执行了 hadoop 合并命令并获取了 290 GB 大小的文件。
我可以在 syslog 中看到过多的 hadoop 日志记录。
我对此有一些疑问,如果有人可以指导我,那将对我有很大帮助 -
1)- syslog 中的日志基于输入数据
2)- 基于 hive 查询的 syslog 日志(我可以看到所有条目都与 Hadoop 处理有关,我认为 hive 查询对日志的过度创建没有任何影响)
3)- 是否有任何方法可以减少在大型集群中运行的任何特定作业的系统日志中的信息,并干扰集群配置(对于其他作业)
【问题讨论】: