【问题标题】:Is it possible to work with Spark Structured Streaming without HDFS?是否可以在没有 HDFS 的情况下使用 Spark 结构化流?
【发布时间】:2021-07-29 14:48:27
【问题描述】:

我曾多次使用 HDFS 和 Kafka,我注意到 Kafka 比 HDFS 更可靠。 因此,现在使用 Spark-structured-streaming ,我很惊讶检查点仅适用于 HDFS。 使用 Kafka 进行检查点会更快、更可靠。 那么是否可以在没有 HDFS 的情况下使用 spark 结构化流? 我们必须将 HDFS 仅用于 Kafka 中的流数据,这似乎很奇怪。 或者是否可以告诉 Spark 忘记 ChekpPointing 并在程序中管理它?

火花 2.4.7

谢谢

【问题讨论】:

    标签: spark-structured-streaming


    【解决方案1】:

    您不限于使用 HDFS 路径作为检查点位置。

    根据 Spark Structured Streaming Guide 中的 Recovering from Failures with Checkpointing 部分,路径必须是“与 HDFS 兼容的文件系统”。因此,其他文件系统也可以工作。但是,所有 Executor 都必须有权访问该文件系统。例如,在集群中的边缘节点上选择本地文件系统可能在本地模式下工作,但是在集群模式下这可能会导致问题。

    此外,Kafka 本身无法使用 Spark Structured Streaming 处理偏移位置。我在How to manually set group.id and commit kafka offsets in spark structured streaming? 的回答中对此进行了更深入的解释。

    【讨论】:

      猜你喜欢
      • 2019-10-23
      • 2016-07-27
      • 1970-01-01
      • 1970-01-01
      • 2014-06-16
      • 2020-01-22
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多