1. 基础:批处理和流处理(DataSet和DataStream)区别

批处理(批量)_sparkStreaming

  • 处理完成一条数据后,将其序列化到缓存中,当缓存写满时,就持久化到本地硬盘上;在所有数据都被处理完成后,才开始将其通过网络传输到下一个节点
  • 适合有边界数据
  • 使用DataSet
  • 要求高吞吐

流处理(逐个)_flink

  • 在处理完成一条数据后,将其序列化到缓存中,并立刻通过网络传输到下一个节点,由下一个节点继续处理。

  • 适合无边界数据

  • 使用DataStream

  • 要求低延迟

  • 批处理和流处理(DataSet和DataStream)最大的区别在于对时间的处理。

    2.另外
    Flink——flink和sparkStreaming 对比?
    Flink——flink和sparkStreaming 对比?

相关文章:

  • 2021-11-29
  • 2021-05-02
  • 2021-06-25
  • 2021-09-29
  • 2021-05-24
  • 2022-01-09
  • 2021-09-17
猜你喜欢
  • 2021-12-10
  • 2021-07-25
  • 2021-11-30
  • 2021-07-07
  • 2021-07-12
  • 2021-11-30
相关资源
相似解决方案