Spark
1.用于集群上的计算框架,海量数据处理。
2.不使用MapReduce作为执行引擎。使用自己的分布式运行时。
3.与MapReduce在接口和运行时方面一致。
可与Hadoop高度集成。可运行在YARN上使用Hadoop file 格式和存储终端上比如HDFS

特点:可以保存大量数据集在内存中供多个jobs使用。使得性能(在数量和其它更多方面)比MapReduce(数据集从磁盘上加载)更突出。
表现在迭代算法和交互式分析两方面。

除此以外:
DAG引擎:相比MapReduce它可以处理任意数量的操作管道并转义为一个Job。
用户体验:独一无二,为常用数据处理任务提供大量接口(比如joins)
支持三种语言:java,scala,python.
REPL(read-eval-print loop):为(scala,python)提供,使得检索数据集更快更便捷。

Spark:构建分析工具的好框架。Apache Spark项目包含了MLlib(机器学习lib),图片处理(GraphX),流式处理(Spark Streaming),SQL(Spark SQL).

Hadooop下载地址:
JAVA版本检查:http://wiki.apache.org/hadoop/HadoopJavaVersions
spark下载地址:https://spark.apache.org/downloads.html
JDK 8下载地址:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
hadoop.2.7.7下载地址:http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz

export    HADOOP_HOME=~/sw/hadoop-x.y.z %
export    PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin 
export JAVA_HOME=/data/jdk1.8.0_181
export SPARK_HOME=/data/spark-2.2.2-bin-hadoop2.7

例子:使用spark-shell交互式进程:
执行spark-shell

Spark初探-搭建

UI 页面:http://192.168.0.31:4040/jobs/

相关文章: