【问题标题】：Unable to install PySpark on Google Colab无法在 Google Colab 上安装 PySpark
【发布时间】：2019-08-28 02:33:10
【问题描述】：

我正在尝试使用下面给出的代码在 Google Colab 上安装 PySpark，但出现以下错误。

tar：spark-2.3.2-bin-hadoop2.7.tgz：无法打开：没有这样的文件或目录

tar：错误不可恢复：现在退出

此代码已成功运行一次。但是在笔记本重启后它会抛出这个错误。我什至尝试从另一个 Google 帐户运行它，但又出现同样的错误。

（还有没有什么方法可以让我们在 notebook 重启后不用每次都安装 PySpark？）

代码：

-------------------------------------------------- -------------------------------------------------- ----------------------------

!apt-get install openjdk-8-jdk-headless -qq > /dev/null

!wget -q http://apache.osuosl.org/spark/spark-2.3.2/spark-2.3.2-bin-hadoop2.7.tgz

下面这行似乎是导致问题的原因，因为它没有找到下载的文件。

!tar xvf spark-2.3.2-bin-hadoop2.7.tgz

我还尝试了中型博客某处建议的以下两行（而不是以上两行）。但没有比这更好的了。

!wget -q http://mirror.its.dal.ca/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz

!tar xvf spark-2.4.0-bin-hadoop2.7.tgz

!pip install -q findspark

-------------------------------------------------- -------------------------------------------------- --------------------------

任何想法如何摆脱此错误并在 Colab 上安装 PySpark？

【问题讨论】：

标签： pyspark google-colaboratory

【解决方案1】：

我只是使用在 colab 上运行 pyspark

!pip install pyspark

而且效果很好。

【讨论】：

非常感谢哈米特。这是超级简单的解决方案。我想知道为什么有这么多媒体和其他博客文章说明了安装 PySpark 的漫长而复杂的方法，而存在如此超级简单的解决方案！
我很高兴它有帮助:)。

【解决方案2】：

您收到此错误是因为 spark-2.3.2-bin-hadoop2.7 在官方网站和镜像网站上被替换为最新版本。

转到此路径中的任何一条并获取最新版本

替换 spark build 版本，你就完成了。一切都会顺利进行。

!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q https://www-us.apache.org/dist/spark/spark-2.4.3/spark-2.4.3-bin-hadoop2.7.tgz
!tar xf /content/spark-2.4.3-bin-hadoop2.7.tgz
!pip install -q findspark

【讨论】：

【解决方案3】：

日期：2020 年 6 月 9 日

第 1 步：在 google colab 上安装 pyspark

!pip install pyspark

第 2 步：在 spark 会话中处理 pandas 和 spark Dataframe

!pip install pyarrow

它促进了许多组件之间的通信，例如，使用 Python (pandas) 读取 parquet 文件并转换为 Spark 数据帧、Falcon 数据可视化或 Cassandra，而无需担心转换。

第 3 步：创建 Spark 会话

from pyspark.sql import SparkSession
spark = SparkSession.builder.master('local').getOrCreate()

完成⭐

【讨论】：

【解决方案4】：

我曾尝试以相同的方式安装，但即使在检查了正确版本的 spark 之后，我也遇到了同样的错误。运行下面的代码对我有用！

!pip install pyspark
!pip install pyarrow
!pip install -q findspark
from pyspark.sql import SparkSession
spark = SparkSession.builder.master('HelloWorld').getOrCreate()

【讨论】：

你好，我使用的是完全相同的代码，它给出了以下错误：RuntimeError: Java gateway process exited before sending its port number你能解释一下原因吗？

【解决方案5】：

我已使用以下设置在 Google Colab 上运行 PySpark。

# Installing spark 
!apt-get install openjdk-8-jre
!apt-get install scala
!pip install py4j
!wget -q https://downloads.apache.org/spark/spark-2.4.8/spark-2.4.8-bin-hadoop2.7.tgz
!tar xf spark-2.4.8-bin-hadoop2.7.tgz
!pip install -q findspark

# Setting up environment variables
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-2.4.8-bin-hadoop2.7"

# Importing and initating spark
import findspark
findspark.init()
from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").appName("Test Setup").getOrCreate()
sc = spark.sparkContext

【讨论】：