以下内容是按照网上综合多篇文章的指导下,记录下自己的实际安装过程

安装了以下内容

Scala

Spark

Hadoop

Anaconda

Pyspark(最终是为了用Pysaprk)

 

  1. 安装Scala
    1. 下载:https://www.scala-lang.org/download/
    2. 我安装到windows上,所以选择了这个版本2.13.3

scala-2.13.3.msi

Windows (msi installer)

125.76M

  1. 安装过程只更换了安装路径,其它默认
  2. 完成后,打开命令行,输入Scala,显示以下正常安装完成
  3. Windows 10搭建Pyspark环境过程

 

 

  1. 安装Spark
    1. 下载:http://spark.apache.org/downloads.html
    2. 下载的版本是2.4.6 - Prebuilt for Apache Hadoop 2.7
    3. 解压
    4. 配置SPARK_HOME环境变量(解压目录)
    5. 配置Path添加%SPARK_HOME%\bin
  2. 安装Hadoop
    1. 下载:https://hadoop.apache.org/releases.html
    2. 下载的是2.7.7版本
    3. 解压(我用管理员解压,不然会报“客户端没有所需特权”,lib/native创建的链接文件估计要用管理员权限)
    4. 配置HADOOP_HOME环境变量
    5. 配置Path添加%HADOOP_HOME%\bin
    6. 下载对应版本的winutils.exe:https://github.com/cdarlint/winutils
    7. 把winutils.exe放到Hadoop目录的bin下
    8. 创建目录C:\Personal\tmp\hive (自定义)
    9. 打开cmd执行:C:\Personal\Programs\hadoop-2.7.7\bin\winutils.exe chmod 777 C:\Personal\tmp\hive
    10. 打开cmd执行"spark-shell"验证
    11. Windows 10搭建Pyspark环境过程
    12. 如果Hadoop用3.2.1版本(第一次安装用这个版本),会有以下提示
    13. Windows 10搭建Pyspark环境过程
      1. "Unable to load native-hadoop library for your platform"
      2. 网上说是lib\native在官方下载的是32位编译的文件,要用64位编译的版本,网上找不到3.2.1的,自己编译Hadoop没成功过
      3. 于是换成2.7.7版本,就再没有此报错,但2.7.7版本也是用官方的文件,并没有找64位版本替代
      4. 网上指导的文章说是可以忽略,因为网上的文章有教如何屏蔽不显示这个报错
  3. 安装Anaconda
    1. Anaconda安装py4j
    2. 打开Anaconda Prompt
    3. 输入conda install py4j / pip instal py4j
  4. jupyter 连接 Spark(以下验证语句是转摘自https://www.cnblogs.com/Ting-light/p/11303594.html,但太多链接有以下一样的代码,不清楚该链接是否原作者)

In

import os

import sys

spark_name = os.environ.get('SPARK_HOME',None)

if not spark_name:

    raise ValueErrorError('spark环境没有配置好')

sys.path.insert(0,os.path.join(spark_name,'python'))

sys.path.insert(0,os.path.join(spark_name,'python/lib/py4j-0.10.4-src.zip'))

exec(open(os.path.join(spark_name,'python/pyspark/shell.py')).read())

显示

Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.4.6
      /_/

Using Python version 3.7.6 (default, Jan  8 2020 20:23:39)
SparkSession available as 'spark'.

相关文章:

  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2021-06-23
  • 2021-11-18
  • 2021-10-18
  • 2021-05-18
  • 2022-12-23
猜你喜欢
  • 2021-10-24
  • 2022-12-23
  • 2021-11-26
  • 2022-01-27
  • 2021-06-08
  • 2022-01-09
  • 2021-09-02
相关资源
相似解决方案