【发布时间】:2012-04-22 00:19:16
【问题描述】:
我在 Elastic MapReduce 上运行 Nutch,有 3 个工作节点。我使用的是 Nutch 1.4,它附带的默认配置(添加用户代理后)。
但是,即使我正在爬取包含 30,000 个域的列表,但获取步骤仅从一个工作节点运行,即使解析步骤在所有三个节点上运行。
如何让它从所有三个节点运行 fetch 步骤?
*EDIT* 问题是我需要将 mapred.map.tasks 属性设置为我的 Hadoop 集群的大小。你可以找到这个记录在案的here
【问题讨论】:
标签: hadoop nutch elastic-map-reduce