pyspark使用graphframes报错

本文主要介绍如何处理pyspark在使用graphframes时碰到的报错。通常,在pyspark下使用graphframe不成功的原因是由于没有在pyspark/jars中导入graphframe所依赖的的jar文件。这里不再对此原因做详细叙述。相关的jar可以从这里下载:https://spark-packages.org/package/graphframes/graphframes
pyspark使用graphframes报错
原因: 再找完很多资料后,并且看了很多相关的解答,即使将相应的jar文件放入指定路径文件夹后依然报错。事实上这是由于所下载的pyspark包和graphframe库的jar文件不匹配所造成的的。(这里做一点小更新,spark已经升级到3.0版本)所以解决的关键是修改pyspark库的版本
解决步骤:

1.修改pyspark版本

pyspark使用graphframes报错
搜索pyspark库的时候,我们可以看到,在左下方现实的版本是3.0.0
pyspark使用graphframes报错
选择specify version, 将其改为2.4.6(当然,你也可以选择更早的版本)
pyspark使用graphframes报错

2. 下载与pyspark版本相对应的包

从链接: link.中下载相对应的jar包(我选择的是Version: 0.7.0-spark2.4-s_2.11 ( f9e13a | zip | jar ) / Date: 2019-01-08 / License: Apache-2.0 / Scala version: 2.11)
pyspark使用graphframes报错
下载完成后,找到对应的文件夹:PycharmProjects/1111/venv/lib/python3.7/site-packages/pyspark/jars,将jar包复制进去。Then, 大功告成。再次运行,没有问题了。

相关文章:

  • 2021-11-10
  • 2021-06-16
  • 2022-12-23
  • 2021-11-04
  • 2021-06-10
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
猜你喜欢
  • 2022-01-24
  • 2022-01-16
  • 2022-12-23
  • 2021-09-22
  • 2021-04-17
  • 2022-12-23
  • 2022-12-23
相关资源
相似解决方案