【问题标题】:nutch crawler - how to set maximum number of inlinks per hostnutch crawler - 如何设置每个主机的最大内链接数
【发布时间】:2010-10-06 08:03:01
【问题描述】:

如何设置每个主机索引的最大页数? 我不想索引网站的所有百万页面,我只想索引前 100000 个找到的页面。

【问题讨论】:

  • 我使用 solr 作为前端,nutch 作为爬虫,我以这种方式运行爬虫: bin/nutch crawl urls/all -dir crawl -threads 25 -depth 10 -topN 1000 -索尔localhost:9001/solr

标签: full-text-search solr search-engine nutch


【解决方案1】:

如果 depth=10 和 topN=1000,您的索引中不会有超过 10000 个文档(如果您不重新抓取)。 “深度”参数表示 Nutch 将运行多少次迭代。 'topN' 参数控制在一次迭代期间最多获取多少个 url。因此,将 'depth' 乘以 'topN' 可以估算出将索引多少个 url。这是一个近似值,因为您的网址可能会超时或返回 404。

如果您不想重新抓取,请确保将“db.fetch.interval.default”设置为足够高的值以完成抓取作业。如果在该间隔到期时抓取作业未完成,那么您将开始重新抓取一些 url,因此索引的 url 数量将小于 depth*topN。

【讨论】:

  • 我只是想可以选择限制每个域的链接数量,即使我的深度为 100 和 topN 10000,它也只会抓取前 10000 个链接并且不会添加更多的链接。
  • 完成 100 次迭代了吗?
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2017-09-10
  • 2018-11-15
  • 2013-09-30
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多