【发布时间】:2015-07-21 20:04:51
【问题描述】:
我学习了云计算,并在 Mapreduce 中创建了一个用于天气分析的项目。为此,我在笔记本电脑中安装了以下软件。
- Oracle 虚拟机
- HortonWorks 沙盒
我选择了 Redhat Linux 并分配了 2 GB 作为主内存。我使用来自沙盒站点的 hadoop 映像并使用 virtualbox 加载它。如果我的理解是正确的,那么 2 GB 是从我的系统中分配的,而 MapReduce 作业是在我的本地机器上完成的。我在这一点上是正确的吗?
我创建了我的 MapReduce 程序并在沙盒中运行它。它工作得很好,我得到了想要的输出。
- 对于我的工作,工作跟踪器显示使用了 8 个映射器,而对于 reduce,使用了一个减速器。所以 8 个映射器基本上是我的 2 GB 主内存的 8 个拆分,用作处理数据的映射器。
如果上面的说法是正确的,为什么我看到只使用了一个减速器?
如果映射器来自沙盒,它们是否有像 Amazon 的 EMR 这样的服务器?
【问题讨论】:
-
我建议您阅读“HBase:权威指南”。它会回答你的问题。
-
@zsxwing :他根本不在谈论 HBase。您是指 Hadoop 权威指南吗?
-
对不起我的错误。是的,我的意思是“Hadoop:权威指南”。对于 hadoop 新手,我强烈推荐这本书。