【发布时间】:2015-12-01 06:42:25
【问题描述】:
我已经用 hadoop 1.2.1 和 hbase 0.94.x 配置了 apache nutch 2.3。我必须爬几个星期的网页。大约需要抓取 100 万份文档。我有四个节点的 hadoop 集群。在此配置之前,我在单机上设置了 nutch 并爬取了一些文档。但是爬行速度不超过 50k 到 80k。 nutch的配置应该是什么,这样它才能每天抓取所需数量的文档。
【问题讨论】:
-
这个问题太笼统了,缺乏必要的细节让我们给你一个好的答案。
-
这个问题是关于如何配置 nutch 仅用于上述目的
标签: hadoop web-scraping web-crawler hbase nutch