在 Dataproc 上运行 Spark + Scala + Jupyter答案

【问题标题】：Running Spark + Scala + Jupyter on Dataproc在 Dataproc 上运行 Spark + Scala + Jupyter
【发布时间】：2016-10-31 11:38:32
【问题描述】：

我还没有设法让 Spark、Scala 和 Jupyter 合作。有人有简单的食谱吗？您使用了每个组件的哪个版本？

【问题讨论】：

你可以使用 zeppelin
确实，这是一个开箱即用的好选择。但是哇，半 GB 的笔记本电脑？他们在做什么？在有人展示如何让 Jupyter 与 Scala 和 Spark 一起工作之前，我会一直保持这个问题。同时，我将使用 Zeppelin。感谢您的建议。
它支持捆绑在同一个二进制文件中的许多解释器，因为 zeppelin 二进制文件非常大。但是他们将在 0.6 版本中删除这个解释器，并提供外部实用程序来安装用户需要的解释器跨度>

标签： scala apache-spark jupyter-notebook google-cloud-dataproc apache-toree

【解决方案1】：

Apache Toree 兼容 DataProc 的 1.0 映像，目前包括 Spark 1.6.1。我曾尝试将它与包含 Spark 2.0 预览的预览图像一起使用，但未成功。要在 DataProc master 上安装 Toree，您可以运行

sudo apt install python3-pip
pip3 install --user jupyter
export SPARK_HOME=/usr/lib/spark
pip3 install --pre --user toree
export PATH=$HOME/.local/bin:$PATH
jupyter toree install --user --spark_home=$SPARK_HOME

【讨论】：

有趣。他们的版本文档暗示它不应该兼容：github.com/apache/incubator-toree#version.
1.6.1 适合“1.5.1+”，这就是他们所说的。至少它似乎起作用了；我刚刚开始测试。

【解决方案2】：

Spark 是 Dataproc 集群的标准配置。

这是一个 gcloud 命令，您可以使用它来创建一个 Dataproc 集群（名为“dplab”），其中包括在端口 8124 上侦听的 Jupyter：

$ gcloud dataproc clusters create dplab \
 --initialization-actions \
     gs://dataproc-initialization-actions/jupyter/jupyter.sh \
 --metadata "JUPYTER_PORT=8124" \
 --zone=us-central1-c

然后运行此命令从您的主机端口转发到集群主服务器：

$ gcloud compute ssh dplab-m \
 --ssh-flag="-Llocalhost:8124:localhost:8124" --zone=us-central1-c

在浏览器中打开 localhost:8124，您应该会看到 Jupyter 页面。

【讨论】：

太棒了。斯卡拉在哪里？