【问题标题】:Spark Structured Streaming app has no jobs and no stagesSpark Structured Streaming 应用程序没有作业,也没有阶段
【发布时间】:2018-09-14 11:07:38
【问题描述】:

我有一个简单的 Spark Structured Streaming 应用程序,它从 Kafka 读取数据并写入 HDFS。今天,该应用程序神秘地停止了工作,没有任何更改或修改(它已经完美运行了数周)。

到目前为止,我观察到以下几点:

  • 应用没有活动、失败或已完成的任务
  • 应用界面没有显示任何工作和阶段
  • QueryProgress 表示每个触发器有 0 个输入行
  • QueryProgress 表明来自 Kafka 的偏移量被正确读取和提交(这意味着数据实际上存在)
  • 主题中确实有数据(写入控制台显示数据)

尽管如此,没有任何东西被写入 HDFS。代码sn-p:

val inputData = spark
.readStream.format("kafka")
.option("kafka.bootstrap.servers", bootstrap_servers)
.option("subscribe", topic-name-here")
.option("startingOffsets", "latest")
.option("failOnDataLoss", "false").load()

inputData.toDF()
.repartition(10)
.writeStream.format("parquet")
.option("checkpointLocation", "hdfs://...")
.option("path", "hdfs://...")
.outputMode(OutputMode.Append())
.trigger(Trigger.ProcessingTime("60 seconds"))
.start()

你知道为什么 UI 没有显示作业/任务吗?

【问题讨论】:

    标签: apache-spark apache-kafka spark-structured-streaming


    【解决方案1】:

    对于面临同样问题的任何人:我找到了罪魁祸首:

    我保存数据的 HDFS 目录中的 _spark_metadata 中的数据不知何故损坏了。

    解决方案是删除该目录并重新启动应用程序,该应用程序重新创建了该目录。数据之后,数据开始流动。

    【讨论】:

    • 是的,遇到了同样的问题,这解决了,谢谢!此外,在删除我的输出目录后,我还必须删除我的检查点目录才能正常运行。
    猜你喜欢
    • 2019-03-01
    • 2020-03-19
    • 2021-11-24
    • 2021-09-11
    • 2021-12-07
    • 2019-02-19
    • 2022-12-04
    • 2018-12-01
    • 1970-01-01
    相关资源
    最近更新 更多