是否可以在没有 HDFS 的情况下使用 Spark 结构化流？

【问题标题】：Is it possible to work with Spark Structured Streaming without HDFS?是否可以在没有 HDFS 的情况下使用 Spark 结构化流？
【发布时间】：2021-07-29 14:48:27
【问题描述】：

我曾多次使用 HDFS 和 Kafka，我注意到 Kafka 比 HDFS 更可靠。因此，现在使用 Spark-structured-streaming ，我很惊讶检查点仅适用于 HDFS。使用 Kafka 进行检查点会更快、更可靠。那么是否可以在没有 HDFS 的情况下使用 spark 结构化流？我们必须将 HDFS 仅用于 Kafka 中的流数据，这似乎很奇怪。或者是否可以告诉 Spark 忘记 ChekpPointing 并在程序中管理它？

火花 2.4.7

谢谢

【问题讨论】：

标签： spark-structured-streaming

【解决方案1】：

您不限于使用 HDFS 路径作为检查点位置。

根据 Spark Structured Streaming Guide 中的 Recovering from Failures with Checkpointing 部分，路径必须是“与 HDFS 兼容的文件系统”。因此，其他文件系统也可以工作。但是，所有 Executor 都必须有权访问该文件系统。例如，在集群中的边缘节点上选择本地文件系统可能在本地模式下工作，但是在集群模式下这可能会导致问题。

此外，Kafka 本身无法使用 Spark Structured Streaming 处理偏移位置。我在How to manually set group.id and commit kafka offsets in spark structured streaming? 的回答中对此进行了更深入的解释。

【讨论】：