【问题标题】:Is Hadoop in Docker container faster/worth it? [closed]Docker 容器中的 Hadoop 更快/值得吗? [关闭]
【发布时间】:2016-05-16 16:42:07
【问题描述】:

我有一个基于Hadoop 的环境。我在这个系统中使用FlumeHueCassandra。现在围绕Docker 大肆宣传,所以想检查一下,在这种情况下,dockerization 的优缺点是什么。我认为它应该更便携,但可以使用Cloudera Manager 进行设置,只需点击几下。它可能更快还是为什么值得?有什么优势? 也许应该只是多节点Cassandra集群dockerized?

【问题讨论】:

  • docker 的原因和虚拟机的原因基本相同。只是在应用级别而不是操作系统级别上进行。
  • 新的 Cloudera 快速入门使用 docker。不过,想想 HDFS。使用容器确实没有意义,因为您正在经历两层文件系统抽象(Docker 和 HDFS 到物理磁盘)

标签: hadoop docker cassandra cloudera


【解决方案1】:

它可能更快还是为什么值得?

听起来您已经拥有一个 Hadoop 集群。所以你要问自己,复现这个环境需要多长时间?您需要多久重现一次这种环境?

如果您不需要一种方法来重复重现环境并包含可能与主机上其他应用程序冲突的依赖项,那么我还没有看到适合您的用例。

有什么优势?

如果您在可能需要混合 Java 版本的环境中运行 Hadoop,则将其作为容器运行可以将依赖项(在本例中为 Java)与主机系统隔离开来。在某些情况下,它会为您提供更容易复制的工件来移动和设置。但是 Java 应用程序已经如此简单,所有依赖项都包含在 JAR 中。

也许应该只是多节点 Cassandra 集群 dockerized?

我不认为这真的归结为是否是多节点环境。它归结为它解决的问题。听起来您在部署或重现 Hadoop 环境(目前)方面没有任何痛点,所以我认为没有必要仅仅因为它是当前热门的新事物而“dockerize”。

当您确实需要轻松重现 Hadoop 环境时,您可能会在 Docker 中寻找一些编排和管理工具(Kubernetes、Rancher 等),这些工具使得在覆盖网络上部署和管理应用程序集群变得非常重要比普通的 Docker 更可口。 Docker 只是我眼中的工具。当您可以利用其他软件包在其之上构建的一些简洁的覆盖多主机网络、发现和编排时,它真的开始大放异彩了。

【讨论】:

    猜你喜欢
    • 2013-10-30
    • 2023-03-17
    • 2010-11-05
    • 2010-09-09
    • 2021-03-21
    • 1970-01-01
    • 2019-02-12
    • 2016-01-01
    相关资源
    最近更新 更多