一 流数据

Spark(五)Spark Streaming

针对两种典型的数据:静态数据和流数据,对应两种不同的计算-批量计算和实时计算

批量计算:MapReduce,一次性处理大规模的静态数据,无法满足秒级响应

流计算:实时获取不同数据源的海量数据,经过实时分析处理,获得有价值的信息;流数据的价值随着时间流逝慢慢降低

流数据框架:高性能(每秒能处理几十万条数据),海量式(支持TB、PB级的数据规模),实时性(低延迟、达到秒级别及毫秒级别),分布式(支持大数据基本架构,平滑扩展),易用性(用户可快速开发和部署),可靠性(可靠地处理流数据)

三类流计算框架:商业级流计算平台、开源流计算框架(Storm S4)、公司为支持自身业务开发的流计算框架

流计算流程:数据实时采集(Kafka,Flume)、数据实时计算、实时查询服务,不用客户实时查询,直接把计算结果推送过去

二 SparkStreaming

数据抽象是DStream,本质是一连串的RDD

可以进行既需要实时数据,又需要历史数据进行一起分析,即可实现静态数据和动态数据的联合处理

 

 

 

相关文章:

  • 2021-10-08
  • 2018-05-16
  • 2021-09-08
  • 2020-06-24
  • 2018-12-03
  • 2019-01-26
  • 2021-10-03
  • 2019-08-15
猜你喜欢
  • 2019-08-15
  • 2018-04-28
  • 1970-01-01
  • 2019-12-22
  • 2021-01-15
  • 2021-09-05
相关资源
相似解决方案