【发布时间】:2015-05-22 19:14:31
【问题描述】:
我想使用 nutch 创建一个有针对性的爬虫。有什么办法可以修改nutch,让爬行更快?我们可以使用 nutch 中的元数据来训练一个分类器,以减少 nutch 必须为给定主题抓取的 url 数量吗??
【问题讨论】:
标签: web-crawler nutch
我想使用 nutch 创建一个有针对性的爬虫。有什么办法可以修改nutch,让爬行更快?我们可以使用 nutch 中的元数据来训练一个分类器,以减少 nutch 必须为给定主题抓取的 url 数量吗??
【问题讨论】:
标签: web-crawler nutch
如果提取的 url 可以通过正则表达式区分,您可以使用当前的 Nutch 通过添加特定的正则表达式过滤器来做到这一点。但是,如果您要根据与页面相关的一些元数据功能对 URL 进行分类,则必须实现自定义 HTMLParseFilter 以在解析步骤中过滤 Outlink[]。 有关如何为 Nutch 开发插件的更多信息,请点击以下链接:
【讨论】: