【发布时间】:2013-03-24 10:46:20
【问题描述】:
我是 Nutch 的新手,并且我尝试让它进行一些特定的爬网,即我希望它首先进入一个特定域(例如维基百科)的 3 层深度 - 这部分可以通过修改正则表达式来实现-urlfilter 文件。
但是我希望它开始抓取它之前获取的所有外部链接,但只有 1 级深度。
所以,我的问题是,有没有办法从第一次运行中获取已爬取链接的列表,以便将它们用作第二次爬取的种子?
【问题讨论】:
标签: url web-crawler nutch
我是 Nutch 的新手,并且我尝试让它进行一些特定的爬网,即我希望它首先进入一个特定域(例如维基百科)的 3 层深度 - 这部分可以通过修改正则表达式来实现-urlfilter 文件。
但是我希望它开始抓取它之前获取的所有外部链接,但只有 1 级深度。
所以,我的问题是,有没有办法从第一次运行中获取已爬取链接的列表,以便将它们用作第二次爬取的种子?
【问题讨论】:
标签: url web-crawler nutch
您可以使用以下命令获取爬取的url列表:
bin/nutch readdb crawl/crawldb -dump file
然后您可以使用该命令的输出手动编辑 urls/seed.txt 文件。
【讨论】: