Spark(五)Spark Streaming

一流数据

针对两种典型的数据：静态数据和流数据，对应两种不同的计算-批量计算和实时计算

批量计算：MapReduce,一次性处理大规模的静态数据，无法满足秒级响应

流计算：实时获取不同数据源的海量数据，经过实时分析处理，获得有价值的信息；流数据的价值随着时间流逝慢慢降低

流数据框架：高性能（每秒能处理几十万条数据），海量式（支持TB、PB级的数据规模），实时性（低延迟、达到秒级别及毫秒级别），分布式（支持大数据基本架构，平滑扩展），易用性（用户可快速开发和部署），可靠性（可靠地处理流数据）

三类流计算框架：商业级流计算平台、开源流计算框架(Storm S4)、公司为支持自身业务开发的流计算框架

流计算流程：数据实时采集（Kafka,Flume）、数据实时计算、实时查询服务,不用客户实时查询，直接把计算结果推送过去

二 SparkStreaming

数据抽象是DStream,本质是一连串的RDD

可以进行既需要实时数据，又需要历史数据进行一起分析，即可实现静态数据和动态数据的联合处理