【问题标题】:Single word lucene indexing limit?单个单词lucene索引限制?
【发布时间】:2013-05-15 08:42:56
【问题描述】:

我有一个基于 Lucene 的应用程序,显然是个问题。 当索引文档的数量很少时,不会出现问题。当文档数量增加时,似乎没有单个单词被索引。我们得到的是用单个词(单个词)搜索是一个空集。 64位机上Lucene的版本是3.1,索引是10GB。

你有什么想法吗?

谢谢

【问题讨论】:

    标签: lucene


    【解决方案1】:

    根据the Lucene documentation,Lucene 应该能够处理 2740 亿个不同的术语。我认为您不可能达到 10GB 索引的限制。

    没有更多信息,很难提供进一步的帮助。但是,由于您只看到大量文档的问题,我怀疑您遇到了某种形式的异常情况,导致系统无法正确读取或响应。文件句柄泄漏或内存溢出可能是在黑暗中刺伤。

    【讨论】:

    • 感谢您的回复。我的猜测是在优化索引的过程中出了点问题。我没有报告的一件事是,并非每个学期都会发生这种情况。只是为了一些条款。如果我们将术语 A 与另一个术语结合起来,假设找到了 B 文档。此外,如果我们使用相同版本的 SW 分析文档子集,则不会发生问题。是一个很奇怪的问题。
    • 你的解释我不清楚。我所知道的是你运行一个查询,并没有得到你期望的结果。哪些证据使您怀疑优化失败?你能更具体地展示你所谈论的问题吗?哪些查询用于生成“用于术语 A”和“将 A 与 B 组合时”的文档?代码和示例很有帮助。
    • 假设索引以下文档: D1="你的解释对我来说不是很清楚。我所知道的是你运行了一个查询,并没有得到你期望的结果。什么证据导致您怀疑优化失败?” D2="你能更具体地说明你所说的问题吗?"当使用术语“证据”进行搜索时,不会检索到文档 D1。当使用术语“证据原因”进行搜索时,将检索文档 D1。正如我之前所写,并非所有条款都会发生这种情况。
    • 听起来分析有问题。停用词和同义词过滤器似乎可能是罪魁祸首,但如果没有有关您的实现或示例的任何信息,很难对它做出任何有用的猜测(因为您说它不会发生在所有术语中,它可能会或可能不会真正发生在随机您作为插图提供的示例)。
    • 已解决...是超时问题。我们在单独的线程中执行搜索,显然我们等待特定时间量的响应,否则结果无效。在特定情况下,不是 lucene 搜索,而是由于某些文档的尺寸,高光的创建很慢。感谢您花时间帮助我。
    猜你喜欢
    • 2017-08-27
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-07-13
    • 2011-03-19
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多