【发布时间】:2020-03-26 11:41:04
【问题描述】:
我有一个以 Kafka 作为源运行的结构化流式 Spark 作业,以附加模式输出 orc 文件。在作业运行时,我每隔一定时间将文件(想要)移动到 hdfs 位置。通过移动文件,火花作业是否会因此崩溃或产生错误的输出?一旦 spark 写入文件,它会出于任何原因再次查看文件吗?我想执行文件移动,但我不想以任何方式破坏 spark。
【问题讨论】:
标签: apache-spark hdfs streaming spark-streaming