【发布时间】:2014-04-03 15:48:50
【问题描述】:
我需要一个具有 url 规范化器、url 过滤器、解析器、礼貌等功能的开源爬虫,但不包括一些 url,但无论如何我正在做的事情并不大。我需要更新的只是大约 500 位主机及其 1 级外链。我不喜欢通过实现 Nutch 拥有的所有这些好的特性来重新发明轮子,同时我不喜欢 Hadoop 的开销来完成这个小任务。
Nutch 有没有没有 Hadoop 的分支?或任何其他具有这些功能的简单爬虫? 我不需要任何自适应获取调度、排名等。我只有一个主机列表,我应该使用一台机器获取它们的外链。
我更喜欢 Nutch 的一些分支,因为我有使用它的经验。
【问题讨论】:
标签: hadoop web-crawler nutch