【发布时间】:2015-02-16 06:21:12
【问题描述】:
我刚刚开始使用 Nutch 1.9 和 Solr 4.10
浏览某些页面后,我发现运行此版本的语法已更改,我必须更新某些 xml 以配置 Nutch 和 Solr
此版本的软件包不需要 Tomcat 即可运行。我开始Solr:
java -jar start.jar
并检查 localhost:8983/solr/admin,它的工作。
我在bin/url/seed.txt中种下了一颗种子,种子是“simpleweb.org”
在 Nutch 中运行 Command:./crawl urls -dir crawl -depth 3 -topN 5
我中间有几个 IO 异常,所以为了避免我下载的 IO 异常 patch-hadoop_7682-1.0.x-win.jar 并在 nutch-site.xml 中做了一个条目,并将 jar 文件放在 Nutch的 lib 中>.
运行Nutch后, 创建了以下文件夹:
apache-nutch-1.9\bin\-dir\crawldb\current\part-00000
我可以在该路径中看到以下文件:
data<br>
index<br>
.data.crc<br>
.index.crc<br>
我想知道如何处理这些文件,下一步是什么?我们可以查看这些文件吗?如果是,怎么做?
我将 Nutch 中的爬取数据索引到 Solr 中:
用于将 solr 与 nutch 链接(命令成功完成) 命令 ./crawl urls solr http://localhost:8983/solr/ -depth 3 -topN 5
为什么我们需要将Nutch抓取的数据索引到Solr中?
使用 Nutch
抓取后用于此的命令:./crawl urls -dir crawl -depth 3 -topN 5;我们可以查看爬取的数据,如果可以,在哪里?
OR只有将Nutch抓取的数据索引到Solr后,才能查看抓取的数据全文?
如何在 Solr web 中查看爬取的数据?
用于此的命令:./crawl urls solr localhost:8983/solr/ -depth 3 -topN 5
【问题讨论】: