【发布时间】:2015-09-18 06:38:34
【问题描述】:
我正在寻找一种将日志数据从文件流式传输到我们的数据库的方法。我一直在阅读有关 Spark streaming 和 Storm 实时管理的信息,但我不知道如何管理由于停止而未处理的数据。
我的意思是,假设系统正在运行并且实时处理数据,系统突然停止并在 10 分钟后重新启动。有没有办法在不影响实时流的情况下处理这些待处理的数据?
谢谢
【问题讨论】:
标签: apache-spark real-time apache-storm
我正在寻找一种将日志数据从文件流式传输到我们的数据库的方法。我一直在阅读有关 Spark streaming 和 Storm 实时管理的信息,但我不知道如何管理由于停止而未处理的数据。
我的意思是,假设系统正在运行并且实时处理数据,系统突然停止并在 10 分钟后重新启动。有没有办法在不影响实时流的情况下处理这些待处理的数据?
谢谢
【问题讨论】:
标签: apache-spark real-time apache-storm
例如在Storm 上,您需要从一个可靠的数据源中读取数据,该数据源保存传入的消息并允许消费者从它停止的点继续。这种数据源的一个例子是kafka
在Kafka 的情况下,直播不会因为您的消费者(风暴、火花或您正在使用的任何东西)停止而停止。 Kafka 将继续接收消息,并将继续将它们提供给订阅特定流的客户端。
容错的关键在于您选择分发直播流的系统,而不是您选择处理它的工具。您的处理工具可以始终从它们停止的点恢复并继续处理只要消息传递系统允许。
另一个可以处理消费者失败的消息系统代理是Rabbit MQ。
【讨论】: