【发布时间】:2017-11-29 14:09:57
【问题描述】:
我有一个在独立模式下使用 Spark 2.1 的 Scala 应用程序。该应用程序将运行 2 小时并完成。它应该每月运行一次。
我发现了几种结合 Spark 和 Kubernetes 的方法:
- 使用 Apache Spark Helm 图表:https://github.com/kubernetes/charts/tree/master/stable/spark
- Spark for Kubernetes 有一个特殊的分支:https://github.com/apache-spark-on-k8s/spark
- 构建我自己的应用程序 Docker 映像,包括 Spark 二进制文件:http://blog.madhukaraphatak.com/scaling-spark-with-kubernetes-part-5/ 代码示例:https://github.com/phatak-dev/kubernetes-spark
大部分文档都描述了如何在 Kubernetes 上运行 Spark 集群。在 Kubernetes 上独立运行 Spark 的方法是什么?
【问题讨论】:
-
“什么是最好的方法” - 它是基于主要意见的。然而,第二个选项在 Spark Jira 中有官方票,可能会集成到 Spark 中
-
谢谢。我确实觉得 Spark for Kubernetes 的特殊分支的目的是在不运行 Mesos 的情况下运行 Spark 集群。
-
我想你的意思是 - “不运行独立”。那是正确的。特殊分支用于直接在 Kubernetes 上运行 Spark。详情在 JIRA 和github.com/kubernetes/kubernetes/issues/34377
标签: scala apache-spark kubernetes