【发布时间】:2011-05-28 15:50:48
【问题描述】:
我刚刚发现了 Lucene(Java 库)并开始阅读它。
我对获取一些文学作品(例如,Philo、Josephus)并将它们编入索引很感兴趣,然后进行以下类型的分析(类似于某些圣经软件程序所做的):
1) 在单词 y 的 2 或 3 个单词中找到单词 x
2) find "work* of * hand*" - 会找到“works of your hands”、“work of his hand”等...
3) 找到文学模式(也称为“主题”),例如他们的作者使用“在那一天”这个短语。 (我认为这可能是最棘手的,可能必须找到 2-7 个单词短语的所有组合,然后对它们进行计数和排名,例如只显示前 25 个)。例如,这可能表明 Josephus 喜欢使用一组短语,而 Philo 喜欢使用另一组。
您有什么推荐的开源库吗? 我的语言偏好可能是 1) Python、2) C#、3) Java。 理想情况下,不依赖于任何专有数据库。
谢谢,
尼尔
【问题讨论】:
-
我仍然愿意接受更好或更完整的答案。将下面的一项标记为答案,因为它是唯一的一项。
标签: search open-source full-text-search indexing shared-libraries