【问题标题】:EMR pyspark trackable logging architectureEMR pyspark 可跟踪日志架构
【发布时间】:2019-09-08 13:47:39
【问题描述】:

我正在构建一个 pyspark 应用程序,该应用程序失败了很多,并且有很多带有很多步骤的作业,因此无法使用 cluster idstep id 进行搜索。 emr 保存 spark 的当前格式如下

S3/buckt-name/logs/sparksteps/j-{clusterid}/steps/s-{stepid}/stderr.gz

我想要一些可追踪的东西来代替 {clusterid}{stepid},例如 clustername+datetimestep-name

我看到了 log4j.properties,它有一个名为 datepattern 的东西,但它没有用 datetime 保存任何东西

【问题讨论】:

    标签: apache-spark pyspark log4j amazon-emr


    【解决方案1】:

    您可以使用 filebeats 将日志索引到 ELK 集群(托管或非托管)中。

    或者使用 EMR 或 Lambda 上的引导脚本将日志发送到 cloudwatch 日志。然后,您可以根据需要自定义日志组和日志流名称。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2017-06-27
      • 2016-06-07
      • 2015-08-20
      • 1970-01-01
      • 1970-01-01
      • 2017-06-19
      • 2020-07-27
      • 1970-01-01
      相关资源
      最近更新 更多