Apache Spark：纱线日志分析答案

【问题标题】：Apache Spark: Yarn logs AnalysisApache Spark：纱线日志分析
【发布时间】：2016-05-13 22:14:21
【问题描述】：

我有一个 spark-streaming 应用程序，我想使用 Elasticsearch-Kibana 分析作业的日志。我的工作在纱线集群上运行，因此日志被写入 HDFS，因为我已将 yarn.log-aggregation-enable 设置为 true。但是，当我尝试这样做时：

hadoop fs -cat ${yarn.nodemanager.remote-app-log-dir}/${user.name}/logs/<application ID>

我看到一些加密/压缩数据。这是什么文件格式？如何从此文件中读取日志？我可以使用logstash 来阅读这个吗？

另外，如果有更好的方法来分析 Spark 日志，我愿意接受您的建议。

谢谢。

【问题讨论】：

【解决方案1】：

该格式称为TFile，是一种压缩文件格式。

然而，Yarn 选择将应用程序日志写入 TFile！对于那些不知道 TFile 是什么的人（我敢打赌你们很多人都不知道），你可以在这里了解更多关于它的信息，但现在这个基本定义应该足够了“TFile 是密钥的容器-值对。键和值都是无类型字节”。

可能有一种方法可以将 YARN 和 Spark 的 log4j.properties 编辑为 send messages to Logstash using SocketAppender

【讨论】：