【问题标题】:Best web crawlers for commercial purpose?用于商业目的的最佳网络爬虫?
【发布时间】:2012-06-21 10:55:07
【问题描述】:

我正在开发一个抓取数千万网页的系统,该系统将上线。 我宁愿不从头开发爬虫。

哪些开源网络爬虫符合以下标准:

  • 可定制
  • 高度可扩展
  • 轻松爬取 ajax 网站
  • 智能抓取
  • 彬彬有礼

如果我遗漏了任何一个,请评估您认为重要的其他标准。

我有以下开源爬虫的列表。是否具备上述特征?

  1. 刮擦
  2. 机械化
  3. 努奇
  4. Heritrix
  5. 亚麻
  6. httrack
  7. 蜘蛛
  8. Searcharoo

【问题讨论】:

标签: web-crawler nutch


【解决方案1】:

我使用 nutch 已经有一段时间了,它似乎非常符合这个标准。插件系统允许您抓取新材料并轻松部署。我遇到的一件事是让它使用多个代理,但总的来说它是非常可定制的。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2011-03-09
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-11-30
    • 2011-12-11
    • 1970-01-01
    相关资源
    最近更新 更多