【问题标题】:indexing web urls content using nutch inject使用 nutch 注入索引 web url 内容
【发布时间】:2017-03-14 14:32:04
【问题描述】:

我递归地爬取了一个网站并收集了所有链接/子链接,即其中提到的 url。现在我希望它将所有 html 内容转储到 elasticsearch。

我正在通过 nutch tutorial 并找到以下方法:

 2. Inject the URLs into the Crawldb

      nutch inject seed/urls.txt


3. Generate URLs to fetch

    bin/nutch generate -topN 40

4. Fetch the pages

   bin/nutch fetch -all

在执行此操作时,我遇到以下错误:

$ ./nutch inject seed/urls.txt
   Usage: Injector <crawldb> <url_dir> [-overwrite] [-update]

在这里,在 urls.txt 中,我已将所有网络链接以换行符分隔。 我不知道如何提取所有数据并使用 nutch 推送到 ES 并且无法找到任何参考链接,需要关于此的指针。

【问题讨论】:

  • 检查注入命令的输出,您需要指定crawldb 路径,通常是crawl/crawldb,但实际上取决于您选择的名称。

标签: elasticsearch web-crawler nutch


【解决方案1】:

命令注入需要两个参数。第一个是crawldb,这是Nutch在爬取过程中存储数据的位置。您通常使用的是crawl/crawldb,但您可以选择其他名称以及@Jorge Luis 在他的评论中指出的名称。第二个是url_dir,它是包含起始URL 的文本文件所在的目录 的位置。在您的情况下,这将是 seed

所以你要运行的完整命令是

./nutch inject crawl/crawldb seed

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2011-10-01
    • 2018-09-07
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多