- 基础:批处理和流处理(DataSet和DataStream)区别
批处理(批量)_sparkStreaming
- 处理完成一条数据后,将其序列化到缓存中,当缓存写满时,就持久化到本地硬盘上;在所有数据都被处理完成后,才开始将其通过网络传输到下一个节点
- 适合有边界数据
- 使用DataSet
- 要求高吞吐
流处理(逐个)_flink
-
在处理完成一条数据后,将其序列化到缓存中,并立刻通过网络传输到下一个节点,由下一个节点继续处理。
-
适合无边界数据
-
使用DataStream
-
要求低延迟
-
批处理和流处理(DataSet和DataStream)最大的区别在于对时间的处理。
2.另外