【发布时间】:2014-07-27 21:08:27
【问题描述】:
我正在使用 apache-nutch-1.6,我可以成功抓取网站。 我的问题是没有使用 seed.txt 文件中的所有条目。这取决于里面有哪些站点。那么有没有限制爬多少?没有错误信息。就像我删除一个站点一样,其他站点会被深度抓取,无论其他站点是否存在,这个站点都会被抓取,并且从其他站点中只抓取我认为最重要的站点....
【问题讨论】:
-
1) 您用于启动爬网的确切命令是什么? 2) 您在 Seed.txt 文件中配置的总链接数是多少? 3) 您在 seed.txt 文件中提到的所有链接中期望的总页数是多少? 4)我猜您提供的 TopN 参数少于您获得的抓取周期的网址......
标签: nutch web-crawler