从 nutch 中获取链接答案

【问题标题】：get out links from nutch从 nutch 中获取链接
【发布时间】：2011-11-17 12:23:21
【问题描述】：

我正在使用 nutch 1.3 来抓取网站。我想获取抓取的 url 列表，以及来自页面的 url。

我得到了使用 readdb 命令抓取的 url 列表。

bin/nutch readdb crawl/crawldb -dump file

有没有办法通过阅读 crawldb 或 linkdb 来找出页面上的 url？

在org.apache.nutch.parse.html.HtmlParser 我看到了outlinks 数组，我想知道是否有一种从命令行快速访问它的方法。

【问题讨论】：

【解决方案1】：

在命令行中，您可以使用带有 -dump 或 -get 选项的 readseg 查看外链。例如，

bin/nutch readseg -dump crawl/segments/20110919084424/ outputdir2 -nocontent -nofetch - nogenerate -noparse -noparsetext

less outputdir2/dump

【讨论】：

【解决方案2】：

您可以使用 readlinkdb 命令轻松完成此操作。它为您提供了与 url 之间的所有链接和链接。

bin/nutch readlinkdb <linkdb> (-dump <out_dir> | -url <url>)

linkdb：这是我们希望从中读取和获取信息的 linkdb 目录。

out_dir：此参数将整个链接数据库转储到我们希望指定的任何 out_dir 中的文本文件中。

url：-url 参数为我们提供了有关特定 url 的信息。这是写入 System.out。

e.g. 

bin/nutch readlinkdb crawl/linkdb -dump myoutput/out1

【讨论】：