Spark全面的梳理学习
spark的概述
spark是什么
Spark是加州大学伯克利分校AMP实验室( Algorithms Machines and People Lab)开发的通用大数据出来框架。Spark生 态栈也称为BDAS,是伯克利AMP实验室所开发的,力图在算法(Algorithms) 、机器(Machines) 和人(Person) 三种之间通过大规模集成来展现大数据应用的一一个开源平台。AMP实验室运用大数据、云计算等各种资源以及各种灵活的技术方案,对海量数据进行分析并转化为有用的信息,让人们更好地了解世界。
1、分析引擎:统的
对数据分析
Spark框架可以针对任何业务类型分析进行处理,比如SparkCore离线批处理、 SparkSQL交互式分析、SparkStreaming和StructuredStreamig流式处理及机器学习和图计算都可以完成。
2、大规模数据处理
面向海量数据进行分析处理
Spark处理数据时,将数据封装到集合DD中(RDD中有很多分区Partition) , 每个分区数据被1个Task处理。对于spark和Flink的每一个任务是一线程Thread方式运行的但是在MapReducede的,每一个task都是以process方式运行。线程的运行快鱼进程。
spark四大特点
spark框架的模块
Spark的运行模式
Spark的快速入门的