Spark提供的pyspark可以像scala shell一样提供交互式的开发,本文介绍在windows下单机环境下的pyspark配置,当然数据量小,任务简单,条件有限的可以在单机上这样做示例,数据量大任务重的还是配置linux集群环境。


1.官网下载好的Spark包解压至某目录,如E:\spark-2.1.0-bin-hadoop2.6,

Windows下Spark python 单机开发环境

2.添加环境变量SPARK_HOME如下:

Windows下Spark python 单机开发环境

3.安装findspark包,命令如下pip install findspark

4.在写交互脚本时,首先导入findspark包,然后执行findspark.init(),这两行写在前边

Windows下Spark python 单机开发环境

5.测试例子,简单测试,读入数据,输出第一条数据,中间异常由于是单机环境,还没有配置hadoop集群环境,可以忽略:

Windows下Spark python 单机开发环境

6.后续可以使用Mllib,参考官网的例子进行开发学习。

官网Mllib:http://spark.apache.org/docs/latest/ml-guide.html
官网Quick Start:http://spark.apache.org/docs/latest/quick-start.html
Spark Programming Guide:http://spark.apache.org/docs/latest/programming-guide.html

相关文章:

  • 2021-05-07
  • 2021-06-11
  • 2022-12-23
  • 2021-12-02
  • 2022-12-23
  • 2021-08-09
  • 2021-05-27
猜你喜欢
  • 2022-12-23
  • 2022-12-23
  • 2021-07-05
  • 2021-08-23
  • 2021-09-23
  • 2021-09-09
相关资源
相似解决方案