【问题标题】:Nutch fetches already fetched URLsNutch 获取已经获取的 URL
【发布时间】:2015-01-15 10:27:53
【问题描述】:

我正在尝试使用 Nutch 抓取网站。我使用命令:

  • inject 用于将 URL 注入数据库
  • generate/fetch/parse/updatedb 循环

我注意到 Nutch 在每次循环迭代中获取已经获取的 URL。

我所做的配置:

  • 在 regex-urlfilter.txt 中添加了过滤器

在 nutch-site.xml 中添加了配置:

  • http.agent.name 设置值 MyNutchSpider
  • http.robots.agents 将值设置为 MyNutchSpider
  • file.content.limit -1
  • http.content.limit -1
  • ftp.content.limit -1
  • fetcher.server.delay 设置值为 1.0
  • fetcher.threads.fetch 设置值为 1
  • parser.character.encoding.default
  • plugin.includes 添加协议protocol-httpclient
  • 设置 storage.data.store.class 以使用自定义存储

我使用命令:

  • bin/nutch 生成 -topN 10
  • bin/nutch fetch -all
  • bin/nutch 解析 -all
  • bin/nutch 更新 b -all

我已经尝试过使用 MySQL 的 Nutch 2.2.1 版本和使用 MongoDB 的 2.3 版本。结果是相同的已经获取的 URL 在每次爬网循环迭代时重新获取。

我应该怎么做才能获取所有未抓取的 URL?

【问题讨论】:

    标签: nutch


    【解决方案1】:

    这是 Nutch 2.X 的一个未解决问题。这个周末我也遇到了。

    修复计划发布 2.3.1:https://issues.apache.org/jira/browse/NUTCH-1922

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2019-04-21
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2014-08-18
      相关资源
      最近更新 更多