如何使用 OpenShift 配置 Hadoop 生态系统集群？答案

【问题标题】：How to provision a Hadoop ecosystem cluster with OpenShift?如何使用 OpenShift 配置 Hadoop 生态系统集群？
【发布时间】：2018-04-06 10:56:57
【问题描述】：

我们正在寻找一种可行的方法来使用 OpenShift（基于 Docker）配置 Hadoop 生态系统集群。我们希望使用 Hadoop 生态系统的服务来构建集群，即 HDFS、YARN、Spark、Hive、HBase、ZooKeeper 等。

我的团队一直将 Hortonworks HDP 用于本地硬件，但现在将切换到基于 OpenShift 的基础架构。 Hortonworks Cloudbreak 似乎不适合基于 OpenShift 的基础架构。我发现 this 文章描述了将 YARN 集成到 OpenShift 中，但似乎没有更多信息可用。

在 OpenShift 上配置 Hadoop 生态系统集群的最简单方法是什么？手动添加所有服务容易出错且难以管理。我偶然发现了这些独立服务的 Docker 映像，但它无法与您使用 Hortonworks HDP 等平台获得的自动配置相媲美。任何指导表示赞赏。

【问题讨论】：

标签： hadoop bigdata openshift hortonworks-data-platform

【解决方案1】：

如果您在 Openshift 中安装 Openstack，Sahara allows provisioning of Openstack Hadoop clusters

或者，Cloudbreak is Hortonwork's tool 用于配置基于容器的云部署

两者都提供 Ambari，允许您使用与 HDP 相同的集群管理界面。

FWIW，我个人找不到将 Hadoop 放入容器的原因。您的数据节点被锁定到特定磁盘。在单个主机上运行多个较小的 ResourceManager 没有任何改进。另外，对于 YARN，您将在容器中运行容器。而对于namenode，你必须有一个复制的Fsimage + Editlog，因为容器可以放在任何系统上

【讨论】：

1) Openshift 上的 Openstack 似乎是一件很奇怪的事情；不是吗？你能详细说明这将如何工作吗？ 2) 我们也见过 Cloudbreak。不幸的是，它也仅适用于 Openstack 集群。
我在链接到 Openstack Sahara 之后编辑了这个问题……据我所知，Openshift 只是一个运行 Kubernetes 的资源池。您可以在其中安装任何容器解决方案。 Openshift 在此环境中运行容器。见blog.openshift.com/…
您可能还对b4mad.net/datenbrei/openshift/hadoop-hdfs感兴趣
我确信可以做到，但缺陷是在该部署方案中，您需要在每个容器内运行 SSH 服务器，因为这就是 Ambari 与外部系统进行通信以进行配置的方式。有些人认为容器永远不需要 SSH，因为您可以将docker exec 放入 shell...此外，必须将代理配置为 Ambari 服务器的静态地址以获取心跳。如果服务器容器重新启动并部署在其他地方，我不知道这些数据包在网络中的传输情况如何。
也不清楚如何从代理容器监控主机信息。另外，据我所知，Ambari 将尝试在代理容器中安装所有 Hadoop 服务。它无权访问 Docker 守护进程来为每个服务配置其他容器。