【发布时间】:2012-09-20 00:32:20
【问题描述】:
我有 4 个核心桌面,想使用我的所有核心通过 hadoop 进行本地数据处理。 (即有时我有足够的能力在本地处理数据,有时我将相同的作业提交到集群)。
默认情况下,hadoop 本地模式只运行一个映射器和一个减速器,所以我的本地作业非常慢。 由于“痛苦”的配置,我不想首先在单机上设置集群,其次我每次都必须创建 jar。那么完美的解决方案就是如何在单机上运行嵌入式Hadoop
PS 伪分布式模式是不好的选择,因为它会使用单节点创建集群,所以我只会得到一个映射器,我必须花一些时间进行额外的配置。
【问题讨论】:
-
我认为你想要伪分布式模式。在 Windows 上最简单的方法是下载 Cloudera Hadoop 演示:ccp.cloudera.com/display/SUPPORT/…
-
否,“伪分布式模式”将运行具有单节点和 2 个 JVM 的集群。所以结果将是相同的 1 个映射器和 1 个减速器