【问题标题】:Unable to install PySpark on Google Colab无法在 Google Colab 上安装 PySpark
【发布时间】:2019-08-28 02:33:10
【问题描述】:

我正在尝试使用下面给出的代码在 Google Colab 上安装 PySpark,但出现以下错误。

tar:spark-2.3.2-bin-hadoop2.7.tgz:无法打开:没有这样的文件或目录

tar:错误不可恢复:现在退出

此代码已成功运行一次。但是在笔记本重启后它会抛出这个错误。我什至尝试从另一个 Google 帐户运行它,但又出现同样的错误。

(还有没有什么方法可以让我们在 notebook 重启后不用每次都安装 PySpark?)

代码:

-------------------------------------------------- -------------------------------------------------- ----------------------------

!apt-get install openjdk-8-jdk-headless -qq > /dev/null

!wget -q http://apache.osuosl.org/spark/spark-2.3.2/spark-2.3.2-bin-hadoop2.7.tgz

下面这行似乎是导致问题的原因,因为它没有找到下载的文件。

!tar xvf spark-2.3.2-bin-hadoop2.7.tgz

我还尝试了中型博客某处建议的以下两行(而不是以上两行)。但没有比这更好的了。

!wget -q http://mirror.its.dal.ca/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz

!tar xvf spark-2.4.0-bin-hadoop2.7.tgz

!pip install -q findspark

-------------------------------------------------- -------------------------------------------------- --------------------------

任何想法如何摆脱此错误并在 Colab 上安装 PySpark?

【问题讨论】:

    标签: pyspark google-colaboratory


    【解决方案1】:

    我只是使用在 colab 上运行 pyspark

    !pip install pyspark

    而且效果很好。

    【讨论】:

    • 非常感谢哈米特。这是超级简单的解决方案。我想知道为什么有这么多媒体和其他博客文章说明了安装 PySpark 的漫长而复杂的方法,而存在如此超级简单的解决方案!
    • 我很高兴它有帮助:)。
    【解决方案2】:

    您收到此错误是因为 spark-2.3.2-bin-hadoop2.7 在官方网站和镜像网站上被替换为最新版本。

    转到此路径中的任何一条并获取最新版本

    1. http://apache.osuosl.org/spark/
    2. https://www-us.apache.org/dist/spark/

    替换 spark build 版本,你就完成了。 一切都会顺利进行。

    !apt-get install openjdk-8-jdk-headless -qq > /dev/null
    !wget -q https://www-us.apache.org/dist/spark/spark-2.4.3/spark-2.4.3-bin-hadoop2.7.tgz
    !tar xf /content/spark-2.4.3-bin-hadoop2.7.tgz
    !pip install -q findspark
    

    【讨论】:

      【解决方案3】:

      日期:2020 年 6 月 9 日


      第 1 步:在 google colab 上安装 pyspark

      !pip install pyspark
      

      第 2 步:在 spark 会话中处理 pandas 和 spark Dataframe

      !pip install pyarrow
      

      它促进了许多组件之间的通信,例如,使用 Python (pandas) 读取 parquet 文件并转换为 Spark 数据帧、Falcon 数据可视化或 Cassandra,而无需担心转换。

      第 3 步:创建 Spark 会话

      from pyspark.sql import SparkSession
      spark = SparkSession.builder.master('local').getOrCreate()
      

      完成⭐

      【讨论】:

        【解决方案4】:

        我曾尝试以相同的方式安装,但即使在检查了正确版本的 spark 之后,我也遇到了同样的错误。 运行下面的代码对我有用!

        !pip install pyspark
        !pip install pyarrow
        !pip install -q findspark
        from pyspark.sql import SparkSession
        spark = SparkSession.builder.master('HelloWorld').getOrCreate()
        

        【讨论】:

        • 你好,我使用的是完全相同的代码,它给出了以下错误:RuntimeError: Java gateway process exited before sending its port number你能解释一下原因吗?
        【解决方案5】:

        我已使用以下设置在 Google Colab 上运行 PySpark。

        # Installing spark 
        !apt-get install openjdk-8-jre
        !apt-get install scala
        !pip install py4j
        !wget -q https://downloads.apache.org/spark/spark-2.4.8/spark-2.4.8-bin-hadoop2.7.tgz
        !tar xf spark-2.4.8-bin-hadoop2.7.tgz
        !pip install -q findspark
        
        # Setting up environment variables
        import os
        os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
        os.environ["SPARK_HOME"] = "/content/spark-2.4.8-bin-hadoop2.7"
        
        # Importing and initating spark
        import findspark
        findspark.init()
        from pyspark.sql import SparkSession
        spark = SparkSession.builder.master("local[*]").appName("Test Setup").getOrCreate()
        sc = spark.sparkContext
        

        【讨论】:

          猜你喜欢
          • 2021-06-23
          • 2021-11-18
          • 2019-06-04
          • 2021-05-30
          • 2021-04-12
          • 2019-01-02
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          相关资源
          最近更新 更多