Windows 上面搭建 Spark + Pycharm/idea scala/python 本地编写Spark程序,测试通过后再提交到Linux集群上

1、首先安装Java 、Scala,然后下载spark-2.1.0-bin-hadoop2.7.tar.gz和hadoop-2.7.3.tar.gz并解压
2、分别在环境变量中添加JAVA_HOME、HADOOP_HOME、SPARK_HOME(scala在安装时会自动配置环境变量,所以在此不用考虑),截图如下:
Windows 上面搭建 Spark + Pycharm/idea scala/python 本地编写Spark程序,测试通过后再提交到Linux集群上
Windows 上面搭建 Spark + Pycharm/idea scala/python 本地编写Spark程序,测试通过后再提交到Linux集群上
Windows 上面搭建 Spark + Pycharm/idea scala/python 本地编写Spark程序,测试通过后再提交到Linux集群上

3、配置好环境变量以后,需要下载Hadoop的hadoop.dll和winutils.exe.zip(我这里以Hadoop 2.7.3为例)(参考链接:http://download.csdn.net/detail/chenxf10/9621093),把下载之后的bin目录下的文件复制到E:\hadoop-2.7.3\bin。

4、之后就可以在IDEA中运行成功一个简单的SparkPi程序了。如图:
(1)、现在IDEA中安装scala和Python:
Windows 上面搭建 Spark + Pycharm/idea scala/python 本地编写Spark程序,测试通过后再提交到Linux集群上
Windows 上面搭建 Spark + Pycharm/idea scala/python 本地编写Spark程序,测试通过后再提交到Linux集群上

(2)、新建一个scala工程(或者Python工程),以scala为例:
Windows 上面搭建 Spark + Pycharm/idea scala/python 本地编写Spark程序,测试通过后再提交到Linux集群上
新建工程目录如下:
Windows 上面搭建 Spark + Pycharm/idea scala/python 本地编写Spark程序,测试通过后再提交到Linux集群上

(3)导入jar包,并设置本地local运行模式
Windows 上面搭建 Spark + Pycharm/idea scala/python 本地编写Spark程序,测试通过后再提交到Linux集群上
Windows 上面搭建 Spark + Pycharm/idea scala/python 本地编写Spark程序,测试通过后再提交到Linux集群上

(4)然后在spark-2.1.0-bin-hadoop2.7.tar.gz解压包的目录下的examples下面scala的SparkPi.scala这个实例代码运行:
Windows 上面搭建 Spark + Pycharm/idea scala/python 本地编写Spark程序,测试通过后再提交到Linux集群上
Windows 上面搭建 Spark + Pycharm/idea scala/python 本地编写Spark程序,测试通过后再提交到Linux集群上
整个windows下就运行完成了。

注:在windows 下Pycharm + Spark + PySpark运行,步骤如下:
前面环境变量已完成,只需要以下几个步骤:
(1)、首先把E:\spark-2.1.0-bin-hadoop2.7\python目录下的pyspark文件夹复制到python安装目录(我以我自己的为主,具体按照自己安装目录来)E:\Anaconda2\Lib\site-packages下面。
(2)、之后新建一个SparkPython工程,然后在Pycharm中加入如下配置文件(注意:在IDEA中也需要把spark-2.1.0-bin-hadoop2.7目录下的jar包导入)如图所示:
Windows 上面搭建 Spark + Pycharm/idea scala/python 本地编写Spark程序,测试通过后再提交到Linux集群上

(3)、接着运行spark-2.1.0-bin-hadoop2.7下面的Python实例代码(还是以SparkPi为例):
Windows 上面搭建 Spark + Pycharm/idea scala/python 本地编写Spark程序,测试通过后再提交到Linux集群上

运行可能还是会报错,如果报一下错误,No module named py4j.protocol,则只需要启动cmd,然后使用pip install py4j,在运行就成功了。
Windows 上面搭建 Spark + Pycharm/idea scala/python 本地编写Spark程序,测试通过后再提交到Linux集群上

总结:以上就是整个windows上面搭建Spark的过程,分别使用Python和Scala运行Spark成功。因在Linux上搭建的集群,远程使用idea编程程序多有不便,故可现在windows上面单机本地调试,没问题再提交到集群运行。

相关文章:

  • 2022-12-23
  • 2021-10-25
  • 2021-11-22
  • 2021-06-08
  • 2021-11-24
  • 2021-08-09
  • 2022-12-23
  • 2021-11-16
猜你喜欢
  • 2022-12-23
  • 2022-01-12
  • 2021-10-05
  • 2021-12-27
  • 2021-10-20
  • 2022-01-04
  • 2021-07-30
相关资源
相似解决方案