【问题标题】:get out links from nutch从 nutch 中获取链接
【发布时间】:2011-11-17 12:23:21
【问题描述】:

我正在使用 nutch 1.3 来抓取网站。我想获取抓取的 url 列表,以及来自页面的 url。

我得到了使用 readdb 命令抓取的 url 列表。

bin/nutch readdb crawl/crawldb -dump file

有没有办法通过阅读 crawldb 或 linkdb 来找出页面上的 url?

org.apache.nutch.parse.html.HtmlParser 我看到了outlinks 数组,我想知道是否有一种从命令行快速访问它的方法。

【问题讨论】:

  • 准确地说,您的意思是查找给定页面的外链。我不知道你可以从命令行做到这一点。你应该能够写作和映射/减少工作......不像我发现的那么难。

标签: web-crawler nutch


【解决方案1】:

在命令行中,您可以使用带有 -dump 或 -get 选项的 readseg 查看外链。例如,

bin/nutch readseg -dump crawl/segments/20110919084424/ outputdir2 -nocontent -nofetch - nogenerate -noparse -noparsetext

less outputdir2/dump

【讨论】:

    【解决方案2】:

    您可以使用 readlinkdb 命令轻松完成此操作。它为您提供了与 url 之间的所有链接和链接。

    bin/nutch readlinkdb <linkdb> (-dump <out_dir> | -url <url>)
    

    linkdb:这是我们希望从中读取和获取信息的 linkdb 目录。

    out_dir:此参数将整个链接数据库转储到我们希望指定的任何 out_dir 中的文本文件中。

    url:-url 参数为我们提供了有关特定 url 的信息。这是写入 System.out。

    e.g. 
    
    bin/nutch readlinkdb crawl/linkdb -dump myoutput/out1
    

    有关详细信息,请参阅 http://wiki.apache.org/nutch/bin/nutch%20readlinkdb

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多