本文承接索引文件的生成(六)继续介绍剩余的内容,下面先给出生成索引文件.tim、.tip的流程图。

生成索引文件.tim、.tip的流程图

图1:

Lucene 索引文件的生成(七)之tim&&tip

统计每一个term的信息

图2:

Lucene 索引文件的生成(七)之tim&&tip

  执行到该流程,我们需要将当前term的一些信息(图1中的IntBlockTermState,见文章索引文件的生成(五))的汇总到所属域的信息中(这里先提一下的是,这些信息在后面使用FieldMetaData封装),图2中出现的字段的含义如下:

  • sumDocFreq:包含当前域的所有term的文档数量总和,注意的是当前域可能有多个term在同一文档中
  • sumTotalTermFreq:当前域的所有term在所有文档中出现的次数总和
  • numTerms:当前域中的term数量
  • minTerm:当前域中最小(字典序)的term
  • maxTerm:当前域中最大(字典序)的term

  例如我们有如下几篇文档:

图3:

Lucene 索引文件的生成(七)之tim&&tip

  

看这里:https://www.amazingkoala.com.cn/Lucene/Index/2020/0117/127.html

相关文章:

  • 2021-06-20
  • 2021-11-03
  • 2021-12-25
  • 2021-09-27
  • 2021-05-28
  • 2021-04-29
  • 2022-12-23
  • 2021-10-29
猜你喜欢
  • 2021-10-10
  • 2021-07-27
  • 2021-12-15
  • 2021-12-23
  • 2021-08-24
  • 2021-09-20
  • 2021-07-19
相关资源
相似解决方案