【问题标题】:How to configure Nutch and solr in ubuntu 10.10?如何在 ubuntu 10.10 中配置 Nutch 和 solr?
【发布时间】:2012-04-20 23:28:34
【问题描述】:

我正在尝试为我最后一年的项目构建一个搜索引擎。在过去的两个月里,我对这个主题做了很多研究。 而且我发现我需要一个爬虫来爬取互联网、一个解析器和一个索引器。

我正在尝试使用 Nutch 作为爬虫和 solr 来索引 Nutch 爬取的数据。但我被困在他们两个的安装部分。我正在尝试借助互联网上的教程在我的系统中安装 Nutch 和 solr,但对我没有任何帮助。

我需要某种安装指南或链接,我可以在其中学习如何安装和集成 Nutch 和 solr

接下来我被解析器困住了。我不知道这个阶段。我需要有关如何在索引之前解析数据的帮助。

我不想建立 Google 之类的。我只需要搜索某些网站中的某些项目。

我有 Java 经验,我可以轻松地使用它,但我不像你们这样专业,请告诉我我是否朝着正确的方向前进,以及我接下来应该做什么。

我使用的是 Ubuntu 10.10,我有 Apache Tomcat 7。

【问题讨论】:

    标签: solr search-engine web-crawler nutch ubuntu-10.10


    【解决方案1】:

    This 用于安装 nutch,this 用于与 Solr 集成。

    关于解析器,nutch 有自己的一套解析器,你不必费心去解析。触发抓取命令,它会自动完成。除非您想解析 nutch 提供的内容之外的内容,否则这对您来说不是问题。如果你想让 nutch 解析一些 .xyz 文件,那么你需要为此编写解析器插件并与 nutch 集成。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2011-12-14
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-08-17
      相关资源
      最近更新 更多