【发布时间】:2016-05-13 22:14:21
【问题描述】:
我有一个 spark-streaming 应用程序,我想使用 Elasticsearch-Kibana 分析作业的日志。我的工作在纱线集群上运行,因此日志被写入 HDFS,因为我已将 yarn.log-aggregation-enable 设置为 true。但是,当我尝试这样做时:
hadoop fs -cat ${yarn.nodemanager.remote-app-log-dir}/${user.name}/logs/<application ID>
我看到一些加密/压缩数据。这是什么文件格式?如何从此文件中读取日志?我可以使用logstash 来阅读这个吗?
另外,如果有更好的方法来分析 Spark 日志,我愿意接受您的建议。
谢谢。
【问题讨论】:
-
您可以尝试使用-text 代替-cat 吗? hadoop fs -text ...
-
试过了。结果还是一样。
-
只是想知道是否有任何 API 可以将这种类型的文件转换为文本文件。无论如何,Yarn 日志都能做到这一点
标签: apache-spark hdfs logstash hadoop-yarn spark-streaming