SlimDB: A Space-Efficient Key-Value Storage Engine For Semi-Sorted Data

REN KAI,CMU

问题起源:很多应用中,key不需要完全有序。而是将key分为prefix和suffix。范围查询只要将共享一个prefix的所有entry iter一遍就可以。经常出现这样的workload叫做semisorted。

应用场景:推荐系统的特征存储,文件系统的元数据管理,基于图的系统。

本文提出的优化措施有三条,依次是stepped-merge,blockindex优化,cuckoofilter。

论文阅读(8):slimdb
stepped-merge的lsm结构,leveli在compact过程中,会将所有sublevel的sstable合并成leveli+1的一个sublevel,这样不用承担leveli+1层sstable重写的写放大开销,类似的概念出现过很多次。但这样会导致sublevel之间keyrange的交叠。所以作者又提出了提高读性能的两个策略。
论文阅读(8):slimdb
lsm可以在不同级别使用不同的indexblock实现策略。本文在l0-l2使用的是3级的block index策略。第一级保存不同的前缀,第二级保存不同前缀最后一次出现的blockid,比如4,对应的是第三个block的开始的key(也就是最小的keyprefix),至于为什么是第三个,因为每个block会在vanilla blockindex保存最小,最大的keyprefix。这样就可以定位到targetkey所在的blockid。key通过ECT(如霍夫曼树)来编码,减少码字长度。然后再通过,第三层的每个block的最后一个entry的suffix,来使用二分法找到targetkey,出现在可能的blockid中的哪个。
论文阅读(8):slimdb
内存中会保存cuckoofilter来筛选key是否存在,而cuckoohash比起bloomfilter的实现方式,有一些不同。cuckoo中每个key通过多个hash算法映射到多个位置,如果位置中有空闲的,就放置到那里,如果没有空闲的,会将其中一个踢走占据他的位置,被踢走的key会迭代找它的映射位置去放置,知道超出最大迭代次数或者找到空位置来放。如果超出threshold,会进行空间扩大,然后重映射整张表。
cuckoohash解决了bloomfilter的误报特性以及不能删除的缺点。而且cuckoo的空间使用效率很高。

相关文章: