【问题标题】:Can output files be moved while doing spark streaming, without crashing the spark job?可以在进行火花流式传输时移动输出文件,而不会使火花作业崩溃吗?
【发布时间】:2020-03-26 11:41:04
【问题描述】:

我有一个以 Kafka 作为源运行的结构化流式 Spark 作业,以附加模式输出 orc 文件。在作业运行时,我每隔一定时间将文件(想要)移动到 hdfs 位置。通过移动文件,火花作业是否会因此崩溃或产生错误的输出?一旦 spark 写入文件,它会出于任何原因再次查看文件吗?我想执行文件移动,但我不想以任何方式破坏 spark。

【问题讨论】:

    标签: apache-spark hdfs streaming spark-streaming


    【解决方案1】:

    在您追加数据时,只要在输出文件夹中生成的 _spark_metadata 目录与检查点目录保持同步,移动文件就不会影响您的结构化流式传输作业。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2021-12-13
      • 2017-04-27
      • 2018-09-19
      • 1970-01-01
      • 1970-01-01
      • 2016-09-14
      • 2020-03-10
      • 1970-01-01
      相关资源
      最近更新 更多