【问题标题】:Spark/k8s: How do I install Spark 2.4 on an existing kubernetes cluster, in client mode?Spark/k8s:如何以客户端模式在现有的 kubernetes 集群上安装 Spark 2.4?
【发布时间】:2019-08-01 13:25:57
【问题描述】:

我想在我的 Kubernetes 集群上安装 Apache Spark v2.4,但是这个版本似乎没有稳定的 helm chart。一个较旧/稳定的图表(对于 v1.5.1)存在于

https://github.com/helm/charts/tree/master/stable/spark

如何创建/查找 v2.4 图表?

然后:需要 v2.4 的原因是启用客户端模式,因为我希望能够从笔记本电脑的开发环境向集群提交(PySpark/Jupyter notebook)作业。启用客户端模式(包括公开服务)需要哪些额外步骤?

到目前为止,我发现但尚未开始工作的最接近的尝试(除了 Spark v2.0.0)是在

https://github.com/Uninett/kubernetes-apps/tree/master/spark

https://github.com/phatak-dev/kubernetes-spark(也是两年前),没有关于 jupyter 部署的内容。

Pangeo 特定:https://discourse.jupyter.org/t/spark-integration-documentation/243

SO 线程:https://github.com/jupyterhub/zero-to-jupyterhub-k8s/issues/1030

我已经搜索了这方面的最新资源,但没有发现任何东西都集中在一个地方。如果人们能够向我指出这些问题,我将使用其他相关链接更新这个问题。希望可以拼凑出一个答案。

和以往一样,提前非常感谢。

更新:

https://github.com/SnappyDataInc/spark-on-k8s for v2.2 非常易于部署 - 看起来很有希望...

【问题讨论】:

标签: apache-spark kubernetes pyspark jupyter jupyterhub


【解决方案1】:

参见https://hub.helm.sh/charts/microsoft/spark 这是基于https://github.com/helm/charts/tree/master/stable/spark 并使用spark 2.4.6 和hadoop 3.1。您可以在https://github.com/dbanda/charts 查看此聊天的来源。 Livy 服务使通过 REST API 提交 Spark 作业变得容易。您还可以使用 Zeppelin 提交作业。我们制作了这张图表作为在 K8s 上运行 spark 的替代方式,而不使用 spark-submit k8s 模式。希望对你有帮助。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2018-06-12
    • 2019-09-15
    • 1970-01-01
    • 2020-11-29
    • 1970-01-01
    • 1970-01-01
    • 2020-02-14
    相关资源
    最近更新 更多