【发布时间】:2012-02-27 14:13:16
【问题描述】:
我有一百万个 URL 列表要获取。我将此列表用作 nutch 种子,并使用 Nutch 的基本 crawl 命令来获取它们。但是,我发现 Nutch 会自动获取不在列表中的 URL。我确实将抓取参数设置为 -depth 1 -topN 1000000。但它不起作用。有谁知道怎么做?
【问题讨论】:
标签: nutch web-crawler
我有一百万个 URL 列表要获取。我将此列表用作 nutch 种子,并使用 Nutch 的基本 crawl 命令来获取它们。但是,我发现 Nutch 会自动获取不在列表中的 URL。我确实将抓取参数设置为 -depth 1 -topN 1000000。但它不起作用。有谁知道怎么做?
【问题讨论】:
标签: nutch web-crawler
在nutch-site.xml 中设置此属性。 (默认情况下为 true,因此它会向 crawldb 添加外链)
<property>
<name>db.update.additions.allowed</name>
<value>false</value>
<description>If true, updatedb will add newly discovered URLs, if false
only already existing URLs in the CrawlDb will be updated and no new
URLs will be added.
</description>
</property>
【讨论】:
命令
nutch crawl urllist -dir crawl -depth 3 -topN 1000000
即使问题仍然存在,请尝试删除您的 nutch 文件夹并重新启动整个过程。
【讨论】: