【问题标题】:Building vertical crawler using Bixo使用 Bixo 构建垂直爬虫
【发布时间】:2010-07-18 18:56:06
【问题描述】:

我遇到了一个开源爬虫 Bixo。 有人试过吗?可以分享一下学习吗?我们能否轻松构建定向爬虫(与 Nutch/Heritrix 相比)? 谢谢 奈恩

【问题讨论】:

    标签: java web-crawler nutch


    【解决方案1】:

    我在一个大型社交网站(每天 1 亿页浏览量)的生产环境中使用 Bixo 进行用户内容分类(基本上是用户制作的任何带有链接的内容)。

    使用 Cascading to 是一个相当复杂的工作流程

    • 重复数据删除 URL,
    • 让 Bixo 检索页面内容,
    • 通过分类器推送页面内容和
    • 触发垃圾邮件帐户的帐户撤销、运行垃圾邮件报告等。

    如果您了解 Cascading,那么 Bixo 的工作方式与任何其他 Cascading 组件非常相似,本质上期望 URL 作为输入并发出一堆与页面相关的信息作为输出。

    一开始我低估的一件事是,对于很多垂直爬虫来说,爬行方面“只是”拼图中的一小部分。围绕它的整个工作流程可能会变得非常复杂,如果您使用另一个孤立的爬虫产品,您需要找到一种方法来集成它。使用 Cascading 的 Bixo 只是您工作流程的另一个输入。

    Bixo 本身似乎很稳固。 Ken Krugler(首席开发人员)反应灵敏,能够在一天之内解决我一开始遇到的一些悬而未决的问题(我的数据集包含许多“脏”的 URL)。他拥有一套非常全面的自动化测试套件,可确保 Bixo 按设计工作。

    总的来说,我不能高度推荐它。整个系统是我在 6 到 9 个月内构建的,如果没有它,我认为我无法在那个时间范围内完成它。

    【讨论】:

    • 感谢 Eric 提供的信息。你能让我知道一些示例代码吗? Ken 提到要写一些教程,但目前还没有。
    • 欢迎您!我首先查看示例爬虫 (bit.ly/bixoSample) 的代码,阅读小组帖子并提出问题。但我同意,教程可以帮助人们入门。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-10-24
    • 2021-05-26
    • 2017-08-20
    • 2012-02-20
    相关资源
    最近更新 更多