【发布时间】:2018-07-15 09:20:33
【问题描述】:
我已经尝试在我的 Windows 10 机器上安装 Spark (pyspark) 已经两周了,现在我意识到我需要你的帮助。
当我尝试在命令提示符中启动“pyspark”时,我仍然收到以下错误:
问题
'pyspark' 未被识别为内部或外部命令, 可运行的程序或批处理文件。
对我来说,这暗示了路径/环境变量存在问题,但我找不到问题的根源。
我的行动
我尝试了多个教程,但我发现最好的是 Michael Galarnyk 的教程。我一步一步跟着他的教程:
- 已安装 Java
- 已安装 Anaconda
-
从官方网站下载了 Spark 2.3.1(我相应地更改了命令,因为 Michael 的教程使用了不同的版本)。我在 cmd 提示符下按照教程移动了它:
mv C:\Users\patri\Downloads\spark-2.3.1-bin-hadoop2.7.tgz C:\opt\spark\spark-2.3.1-bin-hadoop2.7.tgz然后我解压它:
gzip -d spark-2.3.1-bin-hadoop2.7.tgz和
tar xvf spark-2.3.1-bin-hadoop2.7.tar -
从Github 下载 Hadoop 2.7.1:
curl -k -L -o winutils.exe https://github.com/steveloughran/winutils/raw/master/hadoop-2.7.1/bin/winutils.exe?raw=true -
相应地设置我的环境变量:
setx SPARK_HOME C:\opt\spark\spark-2.3.1-bin-hadoop2.7 setx HADOOP_HOME C:\opt\spark\spark-2.3.1-bin-hadoop2.7 setx PYSPARK_DRIVER_PYTHON jupyter setx PYSPARK_DRIVER_PYTHON_OPTS notebook然后将 C:\opt\spark\spark-2.3.1-bin-hadoop2.7\bin 添加到我的路径变量中。我的环境用户变量现在如下所示: Current Environmental Variables
这些操作应该可以解决问题,但是当我运行pyspark --master local[2] 时,我仍然从上面得到错误。您能否使用上述信息帮助追踪此错误?
检查
我在命令提示符中运行了几次检查以验证以下内容:
- Java 已安装
- Anaconda 已安装
- pip 已安装
- Python 已安装
【问题讨论】:
标签: python apache-spark pyspark