【问题标题】:Apache Spark: Yarn logs AnalysisApache Spark:纱线日志分析
【发布时间】:2016-05-13 22:14:21
【问题描述】:

我有一个 spark-streaming 应用程序,我想使用 Elasticsearch-Kibana 分析作业的日志。我的工作在纱线集群上运行,因此日志被写入 HDFS,因为我已将 yarn.log-aggregation-enable 设置为 true。但是,当我尝试这样做时:

hadoop fs -cat ${yarn.nodemanager.remote-app-log-dir}/${user.name}/logs/<application ID>

我看到一些加密/压缩数据。这是什么文件格式?如何从此文件中读取日志?我可以使用logstash 来阅读这个吗?

另外,如果有更好的方法来分析 Spark 日志,我愿意接受您的建议。

谢谢。

【问题讨论】:

  • 您可以尝试使用-text 代替-cat 吗? hadoop fs -text ...
  • 试过了。结果还是一样。
  • 只是想知道是否有任何 API 可以将这种类型的文件转换为文本文件。无论如何,Yarn 日志都能做到这一点

标签: apache-spark hdfs logstash hadoop-yarn spark-streaming


【解决方案1】:

该格式称为TFile,是一种压缩文件格式。

然而,Yarn 选择将应用程序日志写入 TFile!对于那些不知道 TFile 是什么的人(我敢打赌你们很多人都不知道),你可以在这里了解更多关于它的信息,但现在这个基本定义应该足够了“TFile 是密钥的容器-值对。键和值都是无类型字节”。

Splunk / Hadoop Rant

可能有一种方法可以将 YARN 和 Spark 的 log4j.properties 编辑为 send messages to Logstash using SocketAppender

但是,that method is being deprecated

【讨论】:

    猜你喜欢
    • 2018-11-25
    • 1970-01-01
    • 1970-01-01
    • 2021-10-25
    • 2020-04-25
    • 1970-01-01
    • 1970-01-01
    • 2014-03-23
    • 1970-01-01
    相关资源
    最近更新 更多