【问题标题】:Using Python with Zeppelin under the Spark 2 Interpreter在 Spark 2 解释器下使用 Python 和 Zeppelin
【发布时间】:2023-04-04 11:32:01
【问题描述】:

我已经在虚拟机上部署了 HDP: 2.6.4

我可以看到 spark2 没有指向正确的 python 文件夹。我的问题是

1) 如何找到我的 python 所在的位置?

解决方案:输入whereis python,你会得到一个列表

2) 如何更新现有的 python 库并将新库添加到该文件夹​​?例如,相当于 CLI 上的“pip install numpy”。

  • 尚不清楚

3) 如何让 Zeppelin Spark2 指向包含我可以更新的 python 文件夹的特定目录? - 在 Zeppelin 上,有一个小的“编辑”按钮,我可以更改包含 python 的目录的路径。

解决方案:去zeppelin的解释器,找到spark2,让zeppelin.pyspark.python指向python已经存在的地方。

现在,如果您需要 python 3.4+,则必须执行一整套不同的步骤,首先将 python 3.4.+ 放入 HDP 沙箱。

谢谢,

【问题讨论】:

    标签: python apache-zeppelin


    【解决方案1】:

    对于像您这样的沙盒环境,沙盒映像是在 Linux 操作系统 (CentOS) 上制作的。 Zeppelin Notebook 很可能指向每个 Linux 操作系统附带的 Python 安装。 如果您希望拥有自己的 Python 安装和自己的一组用于数据分析的库,例如 SciPy 堆栈中的库。您需要在虚拟机上安装 Anaconda。您的 VM 需要连接到 Internet,以便您可以下载并安装 Anaconda 包进行测试。

    然后您可以将 Zeppelin 指向 anaconda 的目录,直到以下路径:/home/user/anaconda3/bin/python 其中 user 是您的用户名

    Zeppelin Configuration 还证实了它使用/usr/bin/python 的默认python 安装这一事实。您可以通过其文档了解更多信息

    更新

    您好 Joseph,Spark 安装默认使用 Python 解释器和已安装在您的操作系统上的 Python 库。您显示的文件夹结构仅告诉您 PySpark 模块的位置。这个模块是一个类似于 Pandas ior NumPy 的库。

    您可以做的是通过命令pip install package name 安装 SciPy Stack[NumPy、Pandas、MatplotLib 等],然后将这些库直接导入 Zeppelin Notebook。

    在您的 snadbox 终端中使用命令whereis python,结果将为您提供如下信息 /usr/bin/python /usr/bin/python2.7 ....

    在您的 Zeppelin 配置中,对于属性 zeppelin.pyspark.python,您可以设置上一个命令输出的第一个值,即 /usr/bin/python。所以现在你通过pip install 命令安装的所有库都可以在zeppelin 中使用了。

    此过程仅适用于您的沙盒环境。在真正的生产集群中,您的管理员需要在 Spark 集群的所有节点上安装所有这些库。

    【讨论】:

    • 我不希望自己安装 python。我想访问、更新并将 pyspark 指向 spark2。我想使用 pyspark 文件夹并对其进行更新,使其在 spark2 解释器中运行。请检查更新:)
    • 嗨 Joseph,Spark 安装默认使用 Python 解释器和已安装在您的操作系统上的 Python 库。您显示的文件夹结构仅告诉您 PySpark 模块的位置。这个模块是一个类似于 Pandas ior NumPy 的库。您可以通过命令pip install package name 安装 SciPy Stack[NumPy、Pandas、MatplotLib 等。] 并将这些库直接导入您的 Zeppelin Notebook。 `
    • 谢谢你,你已经清理了很多。我遇到了一些错误,我将尝试修复,顺便说一句,我可以在 HDP 的 zeppelin 中使用 spark2 的最新版本是什么:2.6.4
    • 关于我之前的评论,我得到了 sc.version res0: String = 2.2.0.2.6.4.0-91
    • 根据其网站spark.apache.org/docs/2.2.0,Apache Spark 2.2.0 支持的语言版本如下:Spark 在 Java 8+、Python 2.7+/3.4+ 和 R 3.1+ 上运行。对于 Scala API,Spark 2.2.0 使用 Scala 2.11。您需要使用兼容的 Scala 版本 (2.11.x)。
    猜你喜欢
    • 2017-08-18
    • 1970-01-01
    • 2019-12-03
    • 2019-07-14
    • 2019-01-17
    • 2018-08-13
    • 2023-03-14
    • 2016-03-20
    • 2018-09-01
    相关资源
    最近更新 更多