【发布时间】:2017-02-04 13:30:03
【问题描述】:
在实践中(不是理论上)小批量与实时流有什么区别?从理论上讲,我理解小批量是在给定时间范围内进行批处理的东西,而实时流更像是在数据到达时做一些事情,但我最大的问题是为什么没有具有 epsilon 时间范围(比如一毫秒)的小批量,或者我想了解为什么一个比另一个更有效的解决方案?
我最近遇到了一个示例,其中小批量 (Apache Spark) 用于欺诈检测和实时流 (Apache Flink) 用于欺诈预防。也有人评论说小批量不是预防欺诈的有效解决方案(因为目标是防止交易发生)现在我想知道为什么小批量(Spark)不会那么有效? 为什么以 1 毫秒的延迟运行 mini-batch 无效? 批处理是一种无处不在的技术,包括操作系统和内核 TCP/IP 堆栈,其中确实缓冲了到磁盘或网络的数据,因此这里有什么令人信服的因素说一个比另一个更有效?
【问题讨论】:
标签: apache-spark batch-processing apache-flink data-processing stream-processing