【发布时间】:2019-08-28 02:33:10
【问题描述】:
我正在尝试使用下面给出的代码在 Google Colab 上安装 PySpark,但出现以下错误。
tar:spark-2.3.2-bin-hadoop2.7.tgz:无法打开:没有这样的文件或目录
tar:错误不可恢复:现在退出
此代码已成功运行一次。但是在笔记本重启后它会抛出这个错误。我什至尝试从另一个 Google 帐户运行它,但又出现同样的错误。
(还有没有什么方法可以让我们在 notebook 重启后不用每次都安装 PySpark?)
代码:
-------------------------------------------------- -------------------------------------------------- ----------------------------!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q http://apache.osuosl.org/spark/spark-2.3.2/spark-2.3.2-bin-hadoop2.7.tgz
下面这行似乎是导致问题的原因,因为它没有找到下载的文件。
!tar xvf spark-2.3.2-bin-hadoop2.7.tgz
我还尝试了中型博客某处建议的以下两行(而不是以上两行)。但没有比这更好的了。
!wget -q http://mirror.its.dal.ca/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz
!tar xvf spark-2.4.0-bin-hadoop2.7.tgz
!pip install -q findspark
-------------------------------------------------- -------------------------------------------------- --------------------------任何想法如何摆脱此错误并在 Colab 上安装 PySpark?
【问题讨论】:
标签: pyspark google-colaboratory