【发布时间】:2010-07-18 18:56:06
【问题描述】:
我遇到了一个开源爬虫 Bixo。 有人试过吗?可以分享一下学习吗?我们能否轻松构建定向爬虫(与 Nutch/Heritrix 相比)? 谢谢 奈恩
【问题讨论】:
标签: java web-crawler nutch
我遇到了一个开源爬虫 Bixo。 有人试过吗?可以分享一下学习吗?我们能否轻松构建定向爬虫(与 Nutch/Heritrix 相比)? 谢谢 奈恩
【问题讨论】:
标签: java web-crawler nutch
我在一个大型社交网站(每天 1 亿页浏览量)的生产环境中使用 Bixo 进行用户内容分类(基本上是用户制作的任何带有链接的内容)。
使用 Cascading to 是一个相当复杂的工作流程
如果您了解 Cascading,那么 Bixo 的工作方式与任何其他 Cascading 组件非常相似,本质上期望 URL 作为输入并发出一堆与页面相关的信息作为输出。
一开始我低估的一件事是,对于很多垂直爬虫来说,爬行方面“只是”拼图中的一小部分。围绕它的整个工作流程可能会变得非常复杂,如果您使用另一个孤立的爬虫产品,您需要找到一种方法来集成它。使用 Cascading 的 Bixo 只是您工作流程的另一个输入。
Bixo 本身似乎很稳固。 Ken Krugler(首席开发人员)反应灵敏,能够在一天之内解决我一开始遇到的一些悬而未决的问题(我的数据集包含许多“脏”的 URL)。他拥有一套非常全面的自动化测试套件,可确保 Bixo 按设计工作。
总的来说,我不能高度推荐它。整个系统是我在 6 到 9 个月内构建的,如果没有它,我认为我无法在那个时间范围内完成它。
【讨论】: