【问题标题】:Apache Spark History Server LogsApache Spark 历史服务器日志
【发布时间】:2018-09-26 12:59:54
【问题描述】:

我的 Apache Spark 应用程序处理巨大的 RDD 并通过历史服务器生成事件日志。 如何导出这些日志并将它们导入另一台计算机以通过 History Server UI 进行查看?

【问题讨论】:

  • AFAIK,Spark History Server 只读取转储在特定目录(例如 HDFS 上)的日志文件。无需“导出”任何东西。啊,还有,没有清除机制......你必须自己编写脚本。
  • 我将日志文件存储在我的目录“/tmp/spark-events”中,但是当我将它们传输到另一台计算机并启动历史服务器时,日志不会出现在 Web 界面中。我想知道的是如何在另一台计算机的 Web 界面中显示日志。

标签: apache-spark logging import export rdd


【解决方案1】:

我的集群使用 Windows 10,出于某种原因,使用此操作系统,如果日志文件不是在机器本身上生成的,则不会加载它们。使用 Ubuntu 等其他操作系统,我能够在浏览器上查看 History Server 的日志。

【讨论】:

    【解决方案2】:

    运行应用程序时的火花writes eventsspark.eventLog.dir(例如 HDFS - hdfs://namenode/shared/spark-logs),如 spark-defaults 中配置的那样。确定。

    然后 Spark 历史服务器会根据 spark.history.fs.logDirectory 设置。 这两个日志目录需要相同,并且 spark 历史服务器进程应该具有读取这些文件的权限。 因此,这些将是每个应用程序的事件日志目录中的 json 文件。这些您可以使用适当的filesystem commands 访问。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-07-03
      • 1970-01-01
      • 2011-09-05
      • 1970-01-01
      • 1970-01-01
      • 2020-12-27
      相关资源
      最近更新 更多