【发布时间】:2018-09-14 11:07:38
【问题描述】:
我有一个简单的 Spark Structured Streaming 应用程序,它从 Kafka 读取数据并写入 HDFS。今天,该应用程序神秘地停止了工作,没有任何更改或修改(它已经完美运行了数周)。
到目前为止,我观察到以下几点:
- 应用没有活动、失败或已完成的任务
- 应用界面没有显示任何工作和阶段
- QueryProgress 表示每个触发器有 0 个输入行
- QueryProgress 表明来自 Kafka 的偏移量被正确读取和提交(这意味着数据实际上存在)
- 主题中确实有数据(写入控制台显示数据)
尽管如此,没有任何东西被写入 HDFS。代码sn-p:
val inputData = spark
.readStream.format("kafka")
.option("kafka.bootstrap.servers", bootstrap_servers)
.option("subscribe", topic-name-here")
.option("startingOffsets", "latest")
.option("failOnDataLoss", "false").load()
inputData.toDF()
.repartition(10)
.writeStream.format("parquet")
.option("checkpointLocation", "hdfs://...")
.option("path", "hdfs://...")
.outputMode(OutputMode.Append())
.trigger(Trigger.ProcessingTime("60 seconds"))
.start()
你知道为什么 UI 没有显示作业/任务吗?
【问题讨论】:
标签: apache-spark apache-kafka spark-structured-streaming