【发布时间】:2012-05-26 11:08:50
【问题描述】:
我想知道用于索引文档(pdf、xml、Web 文档)等的好工具是什么。 我希望能够索引它们,解析它们并适当地返回结果。
我尝试了 solr/lucene,但我一定遗漏了一些东西,因为我觉得它不够用。
【问题讨论】:
-
您需要比“我觉得它不够有用”更具体。
-
Solr 的问题是,当我尝试创建索引时,它会将整个文档编入一个大字符串中。对此的搜索查询也将返回整个文档。因为那是索引的字段。我想不出在文本索引中建立索引的方法。
-
基本上如果我
发生的事情是在这个“内容”字段中整个文档作为一个字符串被索引。这是一个问题。因为我的要求是返回我搜索的字符串以及它周围的几行。 -
Lucene 似乎只能告诉我它发生在哪个字段,而不能告诉我它发生在哪个字段。
-
这应该让你开始使用你需要的亮点:lucidimagination.com/blog/2009/05/26/…
标签: solr lucene indexing full-text-search documents