Windows 10搭建Pyspark环境过程

以下内容是按照网上综合多篇文章的指导下，记录下自己的实际安装过程

安装了以下内容

Scala

Spark

Hadoop

Anaconda

Pyspark（最终是为了用Pysaprk）

安装Scala
1. 下载：https://www.scala-lang.org/download/
2. 我安装到windows上，所以选择了这个版本2.13.3

scala-2.13.3.msi

Windows (msi installer)

125.76M

安装过程只更换了安装路径，其它默认
完成后，打开命令行，输入Scala，显示以下正常安装完成

安装Spark
1. 下载：http://spark.apache.org/downloads.html
2. 下载的版本是2.4.6 - Prebuilt for Apache Hadoop 2.7
3. 解压
4. 配置SPARK_HOME环境变量（解压目录）
5. 配置Path添加%SPARK_HOME%\bin
安装Hadoop
1. 下载：https://hadoop.apache.org/releases.html
2. 下载的是2.7.7版本
3. 解压（我用管理员解压，不然会报“客户端没有所需特权”，lib/native创建的链接文件估计要用管理员权限）
4. 配置HADOOP_HOME环境变量
5. 配置Path添加%HADOOP_HOME%\bin
6. 下载对应版本的winutils.exe：https://github.com/cdarlint/winutils
7. 把winutils.exe放到Hadoop目录的bin下
8. 创建目录C:\Personal\tmp\hive （自定义）
9. 打开cmd执行：C:\Personal\Programs\hadoop-2.7.7\bin\winutils.exe chmod 777 C:\Personal\tmp\hive
10. 打开cmd执行"spark-shell"验证
12. 如果Hadoop用3.2.1版本（第一次安装用这个版本），会有以下提示
13. 1. "Unable to load native-hadoop library for your platform"
  2. 网上说是lib\native在官方下载的是32位编译的文件，要用64位编译的版本，网上找不到3.2.1的，自己编译Hadoop没成功过
  3. 于是换成2.7.7版本，就再没有此报错，但2.7.7版本也是用官方的文件，并没有找64位版本替代
  4. 网上指导的文章说是可以忽略，因为网上的文章有教如何屏蔽不显示这个报错
安装Anaconda
1. Anaconda安装py4j
2. 打开Anaconda Prompt
3. 输入conda install py4j / pip instal py4j
jupyter 连接 Spark（以下验证语句是转摘自https://www.cnblogs.com/Ting-light/p/11303594.html，但太多链接有以下一样的代码，不清楚该链接是否原作者）

import os

import sys

spark_name = os.environ.get('SPARK_HOME',None)

if not spark_name:

raise ValueErrorError('spark环境没有配置好')

sys.path.insert(0,os.path.join(spark_name,'python'))

sys.path.insert(0,os.path.join(spark_name,'python/lib/py4j-0.10.4-src.zip'))

exec(open(os.path.join(spark_name,'python/pyspark/shell.py')).read())

显示

Welcome to
      ____              __
     / __/__ ___ _____/ /__
    _\ \/ _ \/ _ `/ __/ '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.4.6
      /_/

Using Python version 3.7.6 (default, Jan 8 2020 20:23:39)
SparkSession available as 'spark'.