Nutch - 先爬取域名答案

【问题标题】：Nutch - crawl domain firstNutch - 先爬取域名
【发布时间】：2013-03-24 10:46:20
【问题描述】：

我是 Nutch 的新手，并且我尝试让它进行一些特定的爬网，即我希望它首先进入一个特定域（例如维基百科）的 3 层深度 - 这部分可以通过修改正则表达式来实现-urlfilter 文件。

但是我希望它开始抓取它之前获取的所有外部链接，但只有 1 级深度。

所以，我的问题是，有没有办法从第一次运行中获取已爬取链接的列表，以便将它们用作第二次爬取的种子？

【问题讨论】：

【解决方案1】：

您可以使用以下命令获取爬取的url列表：

bin/nutch readdb crawl/crawldb -dump file

然后您可以使用该命令的输出手动编辑 urls/seed.txt 文件。

【讨论】：