一 流数据
针对两种典型的数据:静态数据和流数据,对应两种不同的计算-批量计算和实时计算
批量计算:MapReduce,一次性处理大规模的静态数据,无法满足秒级响应
流计算:实时获取不同数据源的海量数据,经过实时分析处理,获得有价值的信息;流数据的价值随着时间流逝慢慢降低
流数据框架:高性能(每秒能处理几十万条数据),海量式(支持TB、PB级的数据规模),实时性(低延迟、达到秒级别及毫秒级别),分布式(支持大数据基本架构,平滑扩展),易用性(用户可快速开发和部署),可靠性(可靠地处理流数据)
三类流计算框架:商业级流计算平台、开源流计算框架(Storm S4)、公司为支持自身业务开发的流计算框架
流计算流程:数据实时采集(Kafka,Flume)、数据实时计算、实时查询服务,不用客户实时查询,直接把计算结果推送过去
二 SparkStreaming
数据抽象是DStream,本质是一连串的RDD
可以进行既需要实时数据,又需要历史数据进行一起分析,即可实现静态数据和动态数据的联合处理