【发布时间】:2012-06-21 10:55:07
【问题描述】:
我正在开发一个抓取数千万网页的系统,该系统将上线。 我宁愿不从头开发爬虫。
哪些开源网络爬虫符合以下标准:
- 可定制
- 高度可扩展
- 轻松爬取 ajax 网站
- 智能抓取
- 彬彬有礼
如果我遗漏了任何一个,请评估您认为重要的其他标准。
我有以下开源爬虫的列表。是否具备上述特征?
- 刮擦
- 机械化
- 努奇
- Heritrix
- 亚麻
- httrack
- 蜘蛛
- Searcharoo
【问题讨论】:
-
+1 Wana 做这样的事情......渴望知道对你的这个查询的回应......
-
如果通过提供服务推荐解决了一个人的疑问/疑问,那为什么不回复它!!!!
标签: web-crawler nutch