Spark初探-搭建

Spark
1.用于集群上的计算框架，海量数据处理。
2.不使用MapReduce作为执行引擎。使用自己的分布式运行时。
3.与MapReduce在接口和运行时方面一致。
可与Hadoop高度集成。可运行在YARN上使用Hadoop file 格式和存储终端上比如HDFS

特点：可以保存大量数据集在内存中供多个jobs使用。使得性能（在数量和其它更多方面）比MapReduce（数据集从磁盘上加载）更突出。
表现在迭代算法和交互式分析两方面。

除此以外：
DAG引擎:相比MapReduce它可以处理任意数量的操作管道并转义为一个Job。
用户体验:独一无二，为常用数据处理任务提供大量接口（比如joins)
支持三种语言：java,scala,python.
REPL(read-eval-print loop):为(scala,python）提供，使得检索数据集更快更便捷。

Spark：构建分析工具的好框架。Apache Spark项目包含了MLlib（机器学习lib),图片处理(GraphX),流式处理(Spark Streaming),SQL(Spark SQL).

Hadooop下载地址：
JAVA版本检查：http://wiki.apache.org/hadoop/HadoopJavaVersions
spark下载地址：https://spark.apache.org/downloads.html
JDK 8下载地址：https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
hadoop.2.7.7下载地址：http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz

export HADOOP_HOME=~/sw/hadoop-x.y.z %
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export JAVA_HOME=/data/jdk1.8.0_181
export SPARK_HOME=/data/spark-2.2.2-bin-hadoop2.7

例子：使用spark-shell交互式进程：
执行spark-shell

Spark初探-搭建

UI 页面：http://192.168.0.31:4040/jobs/