【问题标题】:Indexing HTML files using SOLR使用 SOLR 索引 HTML 文件
【发布时间】:2013-02-22 07:55:06
【问题描述】:

我正在尝试使用 SOLR 索引一组 HTML 文件。基本思想是为开发的网站实现网站搜索功能。我对 Lucene 和 SOLR 非常陌生,并且已经尝试了站点中可用的一些示例,并使用它索引了一些文档。但是我无法就什么是最好的做事方式得出结论。有些人建议使用 DataImportHandler,有些地方我看到使用 ExtractingRequestHandler。我这边的一个简单尝试是使用 ExtractingRequestHandler。另外我将不得不更新文件列表,例如,将来可能会删除一些 HTML,可能会添加一些等等。请在选择方法时建议要考虑的因素

干杯!!

【问题讨论】:

    标签: solr lucene indexing


    【解决方案1】:

    我建议您使用Nutch 将您的 HTML 文件抓取并索引到 Solr。它内置了对跟踪文件删除/添加到站点的支持。

    还可以查看 Nutch Wiki 获取入门教程。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2017-10-13
      • 2013-01-20
      • 2018-04-26
      • 2013-09-26
      • 2014-01-25
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多