【问题标题】:focused crawler by modifying nutch通过修改 nutch 来聚焦爬虫
【发布时间】:2015-05-22 19:14:31
【问题描述】:

我想使用 nutch 创建一个有针对性的爬虫。有什么办法可以修改nutch,让爬行更快?我们可以使用 nutch 中的元数据来训练一个分类器,以减少 nutch 必须为给定主题抓取的 url 数量吗??

【问题讨论】:

    标签: web-crawler nutch


    【解决方案1】:

    如果提取的 url 可以通过正则表达式区分,您可以使用当前的 Nutch 通过添加特定的正则表达式过滤器来做到这一点。但是,如果您要根据与页面相关的一些元数据功能对 URL 进行分类,则必须实现自定义 HTMLParseFilter 以在解析步骤中过滤 Outlink[]。 有关如何为 Nutch 开发插件的更多信息,请点击以下链接:

    http://wiki.apache.org/nutch/AboutPlugins

    http://wiki.apache.org/nutch/WritingPluginExample

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2018-06-07
      • 1970-01-01
      • 1970-01-01
      • 2011-05-15
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多