【发布时间】:2017-03-14 14:32:04
【问题描述】:
我递归地爬取了一个网站并收集了所有链接/子链接,即其中提到的 url。现在我希望它将所有 html 内容转储到 elasticsearch。
我正在通过 nutch tutorial 并找到以下方法:
2. Inject the URLs into the Crawldb
nutch inject seed/urls.txt
3. Generate URLs to fetch
bin/nutch generate -topN 40
4. Fetch the pages
bin/nutch fetch -all
在执行此操作时,我遇到以下错误:
$ ./nutch inject seed/urls.txt
Usage: Injector <crawldb> <url_dir> [-overwrite] [-update]
在这里,在 urls.txt 中,我已将所有网络链接以换行符分隔。 我不知道如何提取所有数据并使用 nutch 推送到 ES 并且无法找到任何参考链接,需要关于此的指针。
【问题讨论】:
-
检查注入命令的输出,您需要指定
crawldb路径,通常是crawl/crawldb,但实际上取决于您选择的名称。
标签: elasticsearch web-crawler nutch