lucene 中较短索引的搜索时间较长答案

【问题标题】：Longer search time for shorter index in lucenelucene 中较短索引的搜索时间较长
【发布时间】：2014-03-02 06:58:46
【问题描述】：

我正在Cystic Fybrosis collection 上试验 Lucene。我创建了 4 个索引（单独的索引），其中一个索引只有 title，而另一个索引有 abstract，另一个有 subject。最后一个有all fields。

现在我发现仅使用标题的索引的搜索时间明显大于其他 3 个索引。这似乎违反直觉，因为与其他指数相比，指数规模很小。这可能是什么原因？

这是我用于基准测试的代码

public class PrecisionRecall {

public static void main(String[] args) throws Throwable {

File topicsFile = new File("C:/Users/Raden/Documents/lucene/LuceneHibernate/LIA/lia2e/src/lia/benchmark/topics.txt");
File qrelsFile = new File("C:/Users/Raden/Documents/lucene/LuceneHibernate/LIA/lia2e/src/lia/benchmark/qrels.txt");
Directory dir = FSDirectory.open(new File("C:/Users/Raden/Documents/myindex"));
Searcher searcher = new IndexSearcher(dir, true);

String docNameField = "filename"; 

PrintWriter logger = new PrintWriter(System.out, true); 

TrecTopicsReader qReader = new TrecTopicsReader();   //#1
QualityQuery qqs[] = qReader.readQueries(            //#1
    new BufferedReader(new FileReader(topicsFile))); //#1

Judge judge = new TrecJudge(new BufferedReader(      //#2
    new FileReader(qrelsFile)));                     //#2

judge.validateData(qqs, logger);                     //#3

QualityQueryParser qqParser = new SimpleQQParser("title", "contents");  //#4

QualityBenchmark qrun = new QualityBenchmark(qqs, qqParser, searcher, docNameField);
SubmissionReport submitLog = null;
QualityStats stats[] = qrun.execute(judge,           //#5
        submitLog, logger);

QualityStats avg = QualityStats.average(stats);      //#6
avg.log("SUMMARY",2,logger, "  ");
dir.close();
}
}

【问题讨论】：

标签： lucene information-retrieval

【解决方案1】：

查询的响应时间不取决于索引大小。这取决于查询中的命中数和词条数。

这是因为您不必读取所有索引数据。您只需要阅读查询词的文档列表即可。

【讨论】：