【问题标题】:Recommendations for open/source text indexing and search [closed]开放/源代码文本索引和搜索的建议 [关闭]
【发布时间】:2011-05-28 15:50:48
【问题描述】:

我刚刚发现了 Lucene(Java 库)并开始阅读它。

我对获取一些文学作品(例如,Philo、Josephus)并将它们编入索引很感兴趣,然后进行以下类型的分析(类似于某些圣经软件程序所做的):

1) 在单词 y 的 2 或 3 个单词中找到单词 x

2) find "work* of * hand*" - 会找到“works of your hands”、“work of his hand”等...

3) 找到文学模式(也称为“主题”),例如他们的作者使用“在那一天”这个短语。 (我认为这可能是最棘手的,可能必须找到 2-7 个单词短语的所有组合,然后对它们进行计数和排名,例如只显示前 25 个)。例如,这可能表明 Josephus 喜欢使用一组短语,而 Philo 喜欢使用另一组。

您有什么推荐的开源库吗? 我的语言偏好可能是 1) Python、2) C#、3) Java。 理想情况下,不依赖于任何专有数据库。

谢谢,

尼尔

【问题讨论】:

  • 我仍然愿意接受更好或更完整的答案。将下面的一项标记为答案,因为它是唯一的一项。

标签: search open-source full-text-search indexing shared-libraries


【解决方案1】:

在我看来,就受欢迎程度、社区、活动和工具而言,Lucene 是最好的。我建议您查看构建在 Lucene 之上的 Solr。我发现的另一个开源索引框架是Egothor,我不确定它的采用率是多少。

here is a survey 可能会帮助您选择合适的。

Here你可以找到更多的开源和商业库。我见过很少有人支持超过 1 种编程语言的绑定。如果您决定使用 Lucene,那么您可能需要 Luke 来进行调试。

【讨论】:

猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2013-02-23
  • 1970-01-01
  • 2010-09-11
  • 2010-11-29
  • 1970-01-01
  • 2012-08-12
  • 1970-01-01
相关资源
最近更新 更多