【发布时间】:2011-11-17 12:23:21
【问题描述】:
我正在使用 nutch 1.3 来抓取网站。我想获取抓取的 url 列表,以及来自页面的 url。
我得到了使用 readdb 命令抓取的 url 列表。
bin/nutch readdb crawl/crawldb -dump file
有没有办法通过阅读 crawldb 或 linkdb 来找出页面上的 url?
在org.apache.nutch.parse.html.HtmlParser 我看到了outlinks 数组,我想知道是否有一种从命令行快速访问它的方法。
【问题讨论】:
-
准确地说,您的意思是查找给定页面的外链。我不知道你可以从命令行做到这一点。你应该能够写作和映射/减少工作......不像我发现的那么难。
标签: web-crawler nutch