前沿技术Spark，Flink，Beam

MapReduce的缺点：

1.开发

wordcount程序复杂

只支持map和reduce方法

执行效率低下

以作业连方式串起来执行

打包

2.运行速度：

map输出写到磁盘，reduce写到hdfs，磁盘I/O，网络I/O，序列化等压力大

map任务和reduce任务以进程方式运行

一定要求排序（其实有时候不需要）

不适合迭代处理，交互式（数据挖掘）处理，流式处理

3.框架多样性：

维护和学习成本大

Spark特点：

速度快，使用方便，通用性，可以运行在hadoop,Hadoop, Mesos, Kubernetes, standalone, cloud

Hadoop生态系统和Spark生态系统：

BDAS：Berkeley Data Analytics Stack

Hadoop和Spark生态圈：

hadoop对比Spark：

MapReduce和Spark对比：

前沿技术Spark，Flink，Beam

Spark和hadoop的协作性：

hadoop优势：

1.规模可以拓展

2.可靠，多租户，安全、

3.处理文件，数据库，半结构化数据

Spark：

1.容易开发

2.基于内存

3.联合多个子框架

Hadoop+Spark

前沿技术Spark，Flink，Beam

Spark开发语言及运行模式：

开发语言：Java，python，Scala（推荐）

运行模式：standlone（内置），yarn，mesos，local

分布式计算框架Flink：

概述：开源流式的处理框架

分布式，高性能，精确计算流处理应用

框架类型：

仅批处理框架：

Apache Hadoop

Hive

pig

仅流处理框架：

Apache Storm，JStorm
Apache Samza
混合框架：
Apache Spark

Apache Flink

交互式计算：

Impala

大数据处理神器Beam：

老三驾：GFS，MapReduce，BigTable

新三驾：Dremel，Pregel，Caffeine