【问题标题】:How to provision a Hadoop ecosystem cluster with OpenShift?如何使用 OpenShift 配置 Hadoop 生态系统集群?
【发布时间】:2018-04-06 10:56:57
【问题描述】:

我们正在寻找一种可行的方法来使用 OpenShift(基于 Docker)配置 Hadoop 生态系统集群。我们希望使用 Hadoop 生态系统的服务来构建集群,即 HDFS、YARN、Spark、Hive、HBase、ZooKeeper 等。

我的团队一直将 Hortonworks HDP 用于本地硬件,但现在将切换到基于 OpenShift 的基础架构。 Hortonworks Cloudbreak 似乎不适合基于 OpenShift 的基础架构。我发现 this 文章描述了将 YARN 集成到 OpenShift 中,但似乎没有更多信息可用。

在 OpenShift 上配置 Hadoop 生态系统集群的最简单方法是什么?手动添加所有服务容易出错且难以管理。我偶然发现了这些独立服务的 Docker 映像,但它无法与您使用 Hortonworks HDP 等平台获得的自动配置相媲美。任何指导表示赞赏。

【问题讨论】:

    标签: hadoop bigdata openshift hortonworks-data-platform


    【解决方案1】:

    如果您在 Openshift 中安装 Openstack,Sahara allows provisioning of Openstack Hadoop clusters

    或者,Cloudbreak is Hortonwork's tool 用于配置基于容器的云部署

    两者都提供 Ambari,允许您使用与 HDP 相同的集群管理界面。


    FWIW,我个人找不到将 Hadoop 放入容器的原因。您的数据节点被锁定到特定磁盘。在单个主机上运行多个较小的 ResourceManager 没有任何改进。另外,对于 YARN,您将在容器中运行容器。而对于namenode,你必须有一个复制的Fsimage + Editlog,因为容器可以放在任何系统上

    【讨论】:

    • 1) Openshift 上的 Openstack 似乎是一件很奇怪的事情;不是吗?你能详细说明这将如何工作吗? 2) 我们也见过 Cloudbreak。不幸的是,它也仅适用于 Openstack 集群。
    • 我在链接到 Openstack Sahara 之后编辑了这个问题……据我所知,Openshift 只是一个运行 Kubernetes 的资源池。您可以在其中安装任何容器解决方案。 Openshift 在此环境中运行容器。见blog.openshift.com/…
    • 我确信可以做到,但缺陷是在该部署方案中,您需要在每个容器内运行 SSH 服务器,因为这就是 Ambari 与外部系统进行通信以进行配置的方式。有些人认为容器永远不需要 SSH,因为您可以将docker exec 放入 shell...此外,必须将代理配置为 Ambari 服务器的静态地址以获取心跳。如果服务器容器重新启动并部署在其他地方,我不知道这些数据包在网络中的传输情况如何。
    • 也不清楚如何从代理容器监控主机信息。另外,据我所知,Ambari 将尝试在代理容器中安装所有 Hadoop 服务。它无权访问 Docker 守护进程来为每个服务配置其他容器。
    猜你喜欢
    • 2014-04-07
    • 2013-11-26
    • 2018-04-25
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-11-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多