【发布时间】:2015-07-15 04:10:07
【问题描述】:
问题出现在 ubuntu 12.04 的 Nutch 1.9 中。我正在尝试抓取网站中可用的链接。我在seed.txt 文件中给出了网站网址。除了 http.agent.name (New) 属性和 db.max.outlinks.per.page (-1) 之外,我没有对默认配置进行任何更改。我正在使用以下命令来爬取 crawl urls test -depth 3
Crawler 应该抓取 3 深度内的所有可用链接。但是当我运行以下 linkdb 命令时,只有 5 个链接可用。所有五个链接都在主页中可用
nutch readlinkdb test/linkdb -dump myoutput/out1<br/>
我错过了任何配置更改吗?请帮帮我。
【问题讨论】:
标签: web-crawler nutch