【发布时间】:2012-04-20 23:28:34
【问题描述】:
我正在尝试为我最后一年的项目构建一个搜索引擎。在过去的两个月里,我对这个主题做了很多研究。 而且我发现我需要一个爬虫来爬取互联网、一个解析器和一个索引器。
我正在尝试使用 Nutch 作为爬虫和 solr 来索引 Nutch 爬取的数据。但我被困在他们两个的安装部分。我正在尝试借助互联网上的教程在我的系统中安装 Nutch 和 solr,但对我没有任何帮助。
我需要某种安装指南或链接,我可以在其中学习如何安装和集成 Nutch 和 solr。
接下来我被解析器困住了。我不知道这个阶段。我需要有关如何在索引之前解析数据的帮助。
我不想建立 Google 之类的。我只需要搜索某些网站中的某些项目。
我有 Java 经验,我可以轻松地使用它,但我不像你们这样专业,请告诉我我是否朝着正确的方向前进,以及我接下来应该做什么。
我使用的是 Ubuntu 10.10,我有 Apache Tomcat 7。
【问题讨论】:
标签: solr search-engine web-crawler nutch ubuntu-10.10