以下内容是按照网上综合多篇文章的指导下,记录下自己的实际安装过程
安装了以下内容
Scala
Spark
Hadoop
Anaconda
Pyspark(最终是为了用Pysaprk)
- 安装Scala
- 下载:https://www.scala-lang.org/download/
- 我安装到windows上,所以选择了这个版本2.13.3
|
Windows (msi installer) |
125.76M |
- 安装过程只更换了安装路径,其它默认
- 完成后,打开命令行,输入Scala,显示以下正常安装完成
- 安装Spark
- 下载:http://spark.apache.org/downloads.html
- 下载的版本是2.4.6 - Prebuilt for Apache Hadoop 2.7
- 解压
- 配置SPARK_HOME环境变量(解压目录)
- 配置Path添加%SPARK_HOME%\bin
- 安装Hadoop
- 下载:https://hadoop.apache.org/releases.html
- 下载的是2.7.7版本
- 解压(我用管理员解压,不然会报“客户端没有所需特权”,lib/native创建的链接文件估计要用管理员权限)
- 配置HADOOP_HOME环境变量
- 配置Path添加%HADOOP_HOME%\bin
- 下载对应版本的winutils.exe:https://github.com/cdarlint/winutils
- 把winutils.exe放到Hadoop目录的bin下
- 创建目录C:\Personal\tmp\hive (自定义)
- 打开cmd执行:C:\Personal\Programs\hadoop-2.7.7\bin\winutils.exe chmod 777 C:\Personal\tmp\hive
- 打开cmd执行"spark-shell"验证
- 如果Hadoop用3.2.1版本(第一次安装用这个版本),会有以下提示
-
- "Unable to load native-hadoop library for your platform"
- 网上说是lib\native在官方下载的是32位编译的文件,要用64位编译的版本,网上找不到3.2.1的,自己编译Hadoop没成功过
- 于是换成2.7.7版本,就再没有此报错,但2.7.7版本也是用官方的文件,并没有找64位版本替代
- 网上指导的文章说是可以忽略,因为网上的文章有教如何屏蔽不显示这个报错
- 安装Anaconda
- Anaconda安装py4j
- 打开Anaconda Prompt
- 输入conda install py4j / pip instal py4j
- jupyter 连接 Spark(以下验证语句是转摘自https://www.cnblogs.com/Ting-light/p/11303594.html,但太多链接有以下一样的代码,不清楚该链接是否原作者)
|
In |
import os import sys spark_name = os.environ.get('SPARK_HOME',None) if not spark_name: raise ValueErrorError('spark环境没有配置好') sys.path.insert(0,os.path.join(spark_name,'python')) sys.path.insert(0,os.path.join(spark_name,'python/lib/py4j-0.10.4-src.zip')) exec(open(os.path.join(spark_name,'python/pyspark/shell.py')).read()) |
|
显示 |
Welcome to Using Python version 3.7.6 (default, Jan 8 2020 20:23:39) |