【问题标题】:Running Spark + Scala + Jupyter on Dataproc在 Dataproc 上运行 Spark + Scala + Jupyter
【发布时间】:2016-10-31 11:38:32
【问题描述】:

我还没有设法让 Spark、Scala 和 Jupyter 合作。有人有简单的食谱吗?您使用了每个组件的哪个版本?

【问题讨论】:

  • 你可以使用 zeppelin
  • 确实,这是一个开箱即用的好选择。但是哇,半 GB 的笔记本电脑?他们在做什么?在有人展示如何让 Jupyter 与 Scala 和 Spark 一起工作之前,我会一直保持这个问题。同时,我将使用 Zeppelin。感谢您的建议。
  • 它支持捆绑在同一个二进制文件中的许多解释器,因为 zeppelin 二进制文件非常大。但是他们将在 0.6 版本中删除这个解释器,并提供外部实用程序来安装用户需要的解释器跨度>

标签: scala apache-spark jupyter-notebook google-cloud-dataproc apache-toree


【解决方案1】:

Apache Toree 兼容 DataProc 的 1.0 映像,目前包括 Spark 1.6.1。我曾尝试将它与包含 Spark 2.0 预览的预览图像一起使用,但未成功。要在 DataProc master 上安装 Toree,您可以运行

sudo apt install python3-pip
pip3 install --user jupyter
export SPARK_HOME=/usr/lib/spark
pip3 install --pre --user toree
export PATH=$HOME/.local/bin:$PATH
jupyter toree install --user --spark_home=$SPARK_HOME

【讨论】:

  • 有趣。他们的版本文档暗示它不应该兼容:github.com/apache/incubator-toree#version.
  • 1.6.1 适合“1.5.1+”,这就是他们所说的。至少它似乎起作用了;我刚刚开始测试。
【解决方案2】:

Spark 是 Dataproc 集群的标准配置。

这是一个 gcloud 命令,您可以使用它来创建一个 Dataproc 集群(名为“dplab”),其中包括在端口 8124 上侦听的 Jupyter:

$ gcloud dataproc clusters create dplab \
 --initialization-actions \
     gs://dataproc-initialization-actions/jupyter/jupyter.sh \
 --metadata "JUPYTER_PORT=8124" \
 --zone=us-central1-c

然后运行此命令从您的主机端口转发到集群主服务器:

$ gcloud compute ssh dplab-m \
 --ssh-flag="-Llocalhost:8124:localhost:8124" --zone=us-central1-c

在浏览器中打开 localhost:8124,您应该会看到 Jupyter 页面。

【讨论】:

  • 太棒了。斯卡拉在哪里?
猜你喜欢
  • 2020-07-24
  • 2022-10-03
  • 1970-01-01
  • 1970-01-01
  • 2020-07-19
  • 2020-10-31
  • 1970-01-01
  • 1970-01-01
  • 2015-08-25
相关资源
最近更新 更多