nutch crawl 不使用 seed.txt 中的所有条目答案

【问题标题】：nutch crawl does not use all entries in seed.txtnutch crawl 不使用 seed.txt 中的所有条目
【发布时间】：2014-07-27 21:08:27
【问题描述】：

我正在使用 apache-nutch-1.6，我可以成功抓取网站。我的问题是没有使用 seed.txt 文件中的所有条目。这取决于里面有哪些站点。那么有没有限制爬多少？没有错误信息。就像我删除一个站点一样，其他站点会被深度抓取，无论其他站点是否存在，这个站点都会被抓取，并且从其他站点中只抓取我认为最重要的站点....

【问题讨论】：

1) 您用于启动爬网的确切命令是什么？ 2) 您在 Seed.txt 文件中配置的总链接数是多少？ 3) 您在 seed.txt 文件中提到的所有链接中期望的总页数是多少？ 4）我猜您提供的 TopN 参数少于您获得的抓取周期的网址......

标签： nutch web-crawler

【解决方案1】：

正确配置：

bin/nutch crawl $URLS -dir $CRAWL_LOC -depth 10 -topN 1000

深度：nutch 会爬到这个深度

topN：在每一层，nutch都会抓取这个数量的url的

【讨论】：

我不明白的地方：我在 seed.txt 中有 3 个网站。如果我使用命令 bin/nutch cralw URLs -dir crawl -depth 3 -topN 10 只爬取一个网站。