【发布时间】:2015-07-07 08:53:50
【问题描述】:
如果我理解正确的话,Spark Streaming 是用于通过一组转换传输 RDD 批次,并在转换后进行输出操作。这是针对每个批次执行的,因此输出操作也针对每个批次执行。但是由于每次输出的成本太高,我想处理批次并累积结果,并且仅在某些事件(例如在一定时间段后)写出累积的结果并结束程序。
我知道我可以积累数据,例如使用 updateStateByKey,但我不知道如何告诉 Spark 使用输出操作(例如 saveAsTextFiles),直到很久以后,当某些条件到达时。
这可能吗?
在 flink 中可以吗?
【问题讨论】:
标签: apache-spark spark-streaming pyspark apache-flink