【发布时间】:2019-09-08 22:27:46
【问题描述】:
我正在尝试在 Colab 上安装 PySpark。
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q https://www-us.apache.org/dist/spark/spark-2.4.1/spark-2.4.1-bin-hadoop2.7.tgz
!tar xf spark-2.4.1-bin-hadoop2.7.tgz
!pip install -q findspark
安装完上面的东西后,我设置环境如下:
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-2.2.1-bin-hadoop2.7"
之后,我尝试如下初始化pyspark,结果报错。
import findspark
findspark.init()
错误:
IndexError Traceback (most recent call last)
<ipython-input-24-4e91d34768ac> in <module>()
1 import findspark
----> 2 findspark.init()
/usr/local/lib/python3.6/dist-packages/findspark.py in init(spark_home, python_path, edit_rc, edit_profile)
133 # add pyspark to sys.path
134 spark_python = os.path.join(spark_home, 'python')
--> 135 py4j = glob(os.path.join(spark_python, 'lib', 'py4j-*.zip'))[0]
136 sys.path[:0] = [spark_python, py4j]
137
IndexError: list index out of range
【问题讨论】:
-
@pault 是的,可能是,但我也看到了,但没有解决。而且,我在google colab上设置它并正确设置环境我猜。
-
在google colab中遇到问题,可能重复的解决方案不起作用
标签: pyspark google-colaboratory