【问题标题】:How to create a Job Log in a Spark Streaming Context?如何在 Spark Streaming 上下文中创建作业日志?
【发布时间】:2016-05-07 06:10:22
【问题描述】:

我目前正在对我的 Spark Streaming 应用程序执行性能测试。 一般来说,我通过套接字连接接收 JSON 消息,每秒一条消息。 然后我使用 Spark Streaming 方法将消息作为 RDD 处理,最后将生成的 RDD 打印到数据库中。

这是我的问题:每当我想检查块处理时间或调度延迟等时,我需要转到端口 4040 上的 Spark UI。

不过,我想做的是在程序运行时使用这些值创建一个 Log,并将其作为 txt 文件存储在某个目录中。

现在我知道,有了 SparkContext,我可以使用 addSparkListener 方法或 Logger。

如何为 Spark Streaming 上下文执行此操作?

非常感谢,如果我感到困惑,请道歉。

【问题讨论】:

    标签: apache-spark performance-testing spark-streaming


    【解决方案1】:

    一种选择是查询Sparks REST API,它通过 JSON 格式的 HTTP 请求公开这些指标:

    除了在 UI 中查看指标外,它们还以 JSON 形式提供。这为开发人员提供了一种为 Spark 创建新的可视化和监控工具的简单方法。 JSON 可用于正在运行的应用程序和历史服务器中。端点安装在 /api/v1。例如,对于历史服务器,它们通常可以通过 http://:18080/api/v1 访问,而对于正在运行的应用程序,它们可以通过 http://localhost:4040/api/v1 访问。

    端点列出了所有可用的 URI 以及它们公开的数据。您可以拥有一个在流处理期间查询该数据并分析指标的服务。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2016-11-19
      • 2020-05-20
      • 1970-01-01
      • 2017-08-24
      • 1970-01-01
      • 2019-11-13
      • 2018-11-25
      • 1970-01-01
      相关资源
      最近更新 更多