1.DStream

SparkStreaming中DStream的概念

StreamingContext会根据设置的批处理的时间间隔将产生的rdd归为一批,这一批rdd就是一个DStreamDStream可以通过算子操作转化为另一个DStream


2.流计算的处理流程

SparkStreaming中DStream的概念

SparkStreaming中DStream的概念

SparkStreaming的数据来源是kafkaflumehdfs等,其中用的最多的是kafka,次子是flumeSparkStreaming将接收到的数据进行分批处理,每次发送一个DStreamSparkEngine处理,将处理后的数据持久到hdfsdatebase等里面。


相关文章: