【发布时间】:2018-06-11 11:53:47
【问题描述】:
我有一种情况,我通过流式传输从 AWS kinesis 收集数据到 apache spark。在我收到一批数据后,我处理这些数据并在 cassandra 中更新。这里的处理应该以这样的方式完成,直到结果没有在 cassandra 中更新,spark 不应该接收下一批记录。 那么,如何停止下一批记录的流式传输,直到当前批次未被处理?
【问题讨论】:
标签: apache-spark spark-streaming
我有一种情况,我通过流式传输从 AWS kinesis 收集数据到 apache spark。在我收到一批数据后,我处理这些数据并在 cassandra 中更新。这里的处理应该以这样的方式完成,直到结果没有在 cassandra 中更新,spark 不应该接收下一批记录。 那么,如何停止下一批记录的流式传输,直到当前批次未被处理?
【问题讨论】:
标签: apache-spark spark-streaming
Spark Streaming 不支持此类功能。您可以在从 kinesis 收到每批数据后简单地检查行数,如果没有记录(计数为零),请不要调用 cassandra 更新和插入 API。
【讨论】: