【发布时间】:2011-02-02 00:46:05
【问题描述】:
我无法让 Nutch 为我爬一小块地。我通过 bin/nutch crawl 命令启动它,参数为 -depth 7 和 -topN 10000。它永远不会结束。仅在我的 HDD 为空时结束。我需要做什么:
- 开始用 进一步发展的可能性 外链。
- 抓取 20000 页,然后 索引它们。
- 再爬20000 页面,索引它们并与 第一个索引。
- 循环步骤 3 n 次。
也尝试了在 wiki 中找到的脚本,但我发现的所有脚本都没有更进一步。如果我再次运行它们,它们会从头开始做所有事情。在脚本结束时,我有相同的索引,当我开始爬行时。但是,我需要继续爬行。
【问题讨论】:
标签: lucene web-crawler nutch