spark streaming是基于Apache spark核心API构建的一套并发流处理库,其对实时流数据的处理具备可扩展性、高吞吐量和可容错性等特点。

spark streaming输入数据的来源既可以是kafka、flume、Twitter、zeroMQ、Kinesis等消息队列系统,也可以是传统的TCP套接字传输的原生数据。

工作机制:spark streaming接受实时的输入数据流,并将数据分割成批数据batches供spark核心系统处理,经spark系统处理数据后,得到最终的结果批数据。

spark streaming提供了一个名为离散流(Discretized Stream,简称DStream)的高级系统抽象,用于表示连续的数据流。在系统内部,DStream由一系列的RDD构成。

 

相关文章:

  • 2021-10-07
  • 2022-01-03
  • 2018-10-28
  • 2021-07-01
  • 2021-07-25
  • 2021-10-29
  • 2021-10-10
  • 2021-05-04
猜你喜欢
  • 2022-12-23
  • 2021-07-26
  • 2021-09-14
  • 2021-05-14
  • 2022-12-23
  • 2022-12-23
  • 2021-07-16
相关资源
相似解决方案