使用 nutch 注入索引 web url 内容答案

【问题标题】：indexing web urls content using nutch inject使用 nutch 注入索引 web url 内容
【发布时间】：2017-03-14 14:32:04
【问题描述】：

我递归地爬取了一个网站并收集了所有链接/子链接，即其中提到的 url。现在我希望它将所有 html 内容转储到 elasticsearch。

我正在通过 nutch tutorial 并找到以下方法：

 2. Inject the URLs into the Crawldb

      nutch inject seed/urls.txt


3. Generate URLs to fetch

    bin/nutch generate -topN 40

4. Fetch the pages

   bin/nutch fetch -all

在执行此操作时，我遇到以下错误：

$ ./nutch inject seed/urls.txt
   Usage: Injector <crawldb> <url_dir> [-overwrite] [-update]

在这里，在 urls.txt 中，我已将所有网络链接以换行符分隔。我不知道如何提取所有数据并使用 nutch 推送到 ES 并且无法找到任何参考链接，需要关于此的指针。

【问题讨论】：

检查注入命令的输出，您需要指定crawldb 路径，通常是crawl/crawldb，但实际上取决于您选择的名称。

标签： elasticsearch web-crawler nutch

【解决方案1】：

命令注入需要两个参数。第一个是crawldb，这是Nutch在爬取过程中存储数据的位置。您通常使用的是crawl/crawldb，但您可以选择其他名称以及@Jorge Luis 在他的评论中指出的名称。第二个是url_dir，它是包含起始URL 的文本文件所在的目录的位置。在您的情况下，这将是 seed。

所以你要运行的完整命令是

./nutch inject crawl/crawldb seed

【讨论】：