一、Spark系统

spark相当于是一个优化了Hadoop里面MapReduce的程序,它主要以scala编程为基础。
Spark编程
在实际应用中,大数据处理主要包括以下几个类型:
 复杂的批量数据处理:时间跨度通常在数十分钟到数小时之间;(主要用Spark Core来实现)
 基于历史数据的交互式查询:时间跨度通常在数十秒到数分钟之间;(主要用Spark SQL来实现)
 基于实时数据流的数据处理:时间跨度通常在数百毫秒到数秒之间。(主要用Spark Streaming和Structured Streaming来实现)
 基于历史数据的挖掘:(主要用MLlib来实现)
 图结构的处理:(主要用GraphX来实现)



二、RDD

MapReduce框架都是把中间结果写入到HDFS中,带来了大量的数据复制、磁盘IO和序列化开销。虽然,类似Pregel等图计算框架也是将结果保存在内存当中,但是,这些框架只能支持一些特定的计算模式,并没有提供一种通用的数据抽象。RDD就是为了满足这种需求而出现的,它提供了一个抽象的数据架构。
本节内容未进行摘抄,请参考1.3 RDD的设计与运行原理spark部署和Mooc上的第三章的3.3 SPark运行架构3.4spark部署的的所有内容



三、Spark的安装与使用

相关文章:

  • 2021-09-12
  • 2022-01-10
  • 2021-11-04
  • 2021-06-24
  • 2021-04-22
  • 2021-08-28
猜你喜欢
  • 2022-12-23
  • 2021-07-29
  • 2022-12-23
  • 2022-01-22
  • 2021-05-27
  • 2021-11-16
相关资源
相似解决方案