【问题标题】:How to get the crawled pages content and corresponding URL in nutch?nutch如何获取爬取的页面内容和对应的URL?
【发布时间】:2013-07-23 05:23:55
【问题描述】:

我想通过nutch在文本文件中获取爬取的内容。我使用了#readseg commads,但输出没有结果。

是否有一些插件可以让 nutch 抓取并将 url 和内容存储在文本文件中。

【问题讨论】:

  • 该插件应该在linux版本的nutch中工作。
  • 也许this问题可以提供帮助。

标签: nutch


【解决方案1】:

使用 nutch 1,您可以执行以下操作:

./bin/nutch readseg -get out-crawl/segments/20160823085007/  "https://en.wikipedia.org/wiki/Canon" -nofetch -nogenerate -noparse -noparsedata -noparsetext > Canon.html

它仍然带有几行在文件开头删除。

【讨论】:

    【解决方案2】:

    你可以修改Nutch的Fetch Job来获取URL,并且页面内容在爬取过程中属于该URL。在源代码文件(src/java/org/apache/nutch/fetcher/FetcherReducer.java)中:

          case ProtocolStatusCodes.SUCCESS:        // got a page
              String URL= TableUtil.reverseUrl(fit.url); //URL
              content = Bytes.toString(ByteBuffer.wrap((content.getContent()))));//URL belong the URL
              output(fit, content, status, CrawlStatus.STATUS_FETCHED);
              break;
    

    希望这会有所帮助,

    乐国岛

    【讨论】:

      猜你喜欢
      • 2016-09-11
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-05-12
      • 2011-08-23
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多