本文承接文章索引文件的生成(十九)之dvm&&dvd继续介绍剩余的内容。

生成索引文件.dvd、.dvm之SortedDocValues、SortedSetDocValues

  生成索引文件.dvd、.dvm之SortedDocValues、SortedSetDocValues的流程图:

图1:

Lucene 索引文件的生成(二十)之dvd&&dvm

写入TermsDict信息

图2:

Lucene 索引文件的生成(二十)之dvd&&dvm

  在当前流程点,将存储SortedDocValues、SortedSetDocValues对应的所有域值按照字典序写入到索引文件中,在文章索引文件的生成(十八)之dvm&&dvd我们知道,在索引阶段,我们已经通过sortedValues[ ]数组收集了所有种类的域值。

  我们通过例子来介绍TermDict的数据结构如下所示:

图3:

Lucene 索引文件的生成(二十)之dvd&&dvm

  图3的例子中,为了便于画图,我们只介绍前4篇文档的存储详情,在文章索引文件的生成(十八)之dvm&&dvd中我们已经介绍了termId的概念,故这里不赘述,直接给出前4篇文档中SortedDocValuesField中的域值对应的termId:

域值 termId
mop 0
star 1
of 2
month 3

  sortedValues[ ]数组中的数组元素为termId,并且数组元素是有序的,但是排序规则不是按照数组元素的值,即termId,而是按照termId对应的域值的字典序,故sortedValues[ ]数组如下所示:

图4:

Lucene 索引文件的生成(二十)之dvd&&dvm

  随后依次读取sortedValues[ ]数组中每一个termId,找到termId对应的域值,将这些域值写入到索引文件.dvd中,可见是按照域值从小到大的顺序(字典序)写入的,如下所示:

图5:

Lucene 索引文件的生成(二十)之dvd&&dvm

查看大图

  图5中,根据sortedValues[ ] 数组中的termId作为bytesStart[ ]数组的下标值,从bytesStart[ ]数组获取域值在buffers二维数组中的起始位置,最后在buffers二维数组中获取到在索引期间存储的域值,其中bytesStart[ ]数组、buffers二维数组的介绍见文章ByteRefHash,在那篇文章中,sortedValues[ ]数组即排序后的ids[]数组。

 

剩余内容看这里:https://www.amazingkoala.com.cn/Lucene/Index/2020/0602/146.html

相关文章:

  • 2021-12-31
  • 2021-10-10
  • 2021-11-03
  • 2021-12-25
  • 2021-05-19
  • 2021-06-22
  • 2021-12-23
  • 2021-10-20
猜你喜欢
  • 2021-08-19
  • 2021-05-28
  • 2021-04-29
  • 2021-07-19
  • 2021-10-29
  • 2021-10-17
  • 2021-06-20
相关资源
相似解决方案