Windows下Spark python 单机开发环境

Spark提供的pyspark可以像scala shell一样提供交互式的开发，本文介绍在windows下单机环境下的pyspark配置，当然数据量小，任务简单，条件有限的可以在单机上这样做示例，数据量大任务重的还是配置linux集群环境。

1.官网下载好的Spark包解压至某目录，如E:\spark-2.1.0-bin-hadoop2.6，

2.添加环境变量SPARK_HOME如下：

Windows下Spark python 单机开发环境

3.安装findspark包，命令如下pip install findspark

4.在写交互脚本时，首先导入findspark包，然后执行findspark.init()，这两行写在前边

Windows下Spark python 单机开发环境

5.测试例子，简单测试，读入数据，输出第一条数据，中间异常由于是单机环境，还没有配置hadoop集群环境，可以忽略：

Windows下Spark python 单机开发环境

6.后续可以使用Mllib，参考官网的例子进行开发学习。