【问题标题】:lucene estimate index size, search timelucene 估计索引大小,搜索时间
【发布时间】:2012-03-12 21:34:27
【问题描述】:

我搜索了一种估计索引时间、索引大小、使用 lucene 库的搜索时间的方法。

我有 500 个文件的一些数字,我想估计 5000 个文件的价值。

我在网上搜索,但没有找到任何估算论文数量的好方法。

【问题讨论】:

  • 将 5000 个样本文档放入索引中尝试一下。不要猜测;实验和测量。
  • 文档很少时没关系....但是如果我想估计 20 亿个文档,我真的不能使用这种方法...
  • 如果您有 20 亿份文档,您真的想根据猜测来分配资源吗?老实说,这就是负载测试(而不是负载猜测)最关键的地方。
  • 肯定不是,但在开始之前有想法很正常

标签: lucene performance-estimation


【解决方案1】:

答案很大程度上取决于您放入索引的内容。显然,如果您存储完整的字段内容,那么您至少可以预期线性增长,因子在 1 的一个数量级内。如果您只索引术语,您将需要更少的空间,但同时估计会变得更加困难。例如,唯一索引词的数量是一个非常重要的因素。这可能会在很大程度上取决于您的内容细节的某个数字开始趋于平稳。总而言之,在这种情况下,测量可能是您唯一可靠的方法。

【讨论】:

    猜你喜欢
    • 2010-09-09
    • 2023-03-21
    • 1970-01-01
    • 1970-01-01
    • 2020-12-24
    • 1970-01-01
    • 2012-10-22
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多