论文阅读（8）：slimdb

SlimDB: A Space-Efficient Key-Value Storage Engine For Semi-Sorted Data

REN KAI,CMU

问题起源：很多应用中，ｋｅｙ不需要完全有序。而是将ｋｅｙ分为ｐｒｅｆｉｘ和ｓｕｆｆｉｘ。范围查询只要将共享一个ｐｒｅｆｉｘ的所有ｅｎｔｒｙ　ｉｔｅｒ一遍就可以。经常出现这样的ｗｏｒｋｌｏａｄ叫做ｓｅｍｉｓｏｒｔｅｄ。

应用场景：推荐系统的特征存储，文件系统的元数据管理，基于图的系统。

本文提出的优化措施有三条，依次是ｓｔｅｐｐｅｄ－ｍｅｒｇｅ，ｂｌｏｃｋｉｎｄｅｘ优化，ｃｕｃｋｏｏｆｉｌｔｅｒ。

论文阅读（8）：slimdb
stepped-merge的lsm结构，leveli在compact过程中，会将所有sublevel的sstable合并成leveli+1的一个sublevel，这样不用承担leveli+1层sstable重写的写放大开销，类似的概念出现过很多次。但这样会导致sublevel之间keyrange的交叠。所以作者又提出了提高读性能的两个策略。
论文阅读（8）：slimdb
lsm可以在不同级别使用不同的indexblock实现策略。本文在l0-l2使用的是3级的block index策略。第一级保存不同的前缀，第二级保存不同前缀最后一次出现的blockid，比如4，对应的是第三个block的开始的key（也就是最小的keyprefix），至于为什么是第三个，因为每个block会在vanilla blockindex保存最小，最大的keyprefix。这样就可以定位到targetkey所在的blockid。key通过ECT（如霍夫曼树）来编码，减少码字长度。然后再通过，第三层的每个block的最后一个entry的suffix，来使用二分法找到targetkey，出现在可能的blockid中的哪个。
论文阅读（8）：slimdb
内存中会保存cuckoofilter来筛选key是否存在，而cuckoohash比起bloomfilter的实现方式，有一些不同。cuckoo中每个key通过多个hash算法映射到多个位置，如果位置中有空闲的，就放置到那里，如果没有空闲的，会将其中一个踢走占据他的位置，被踢走的key会迭代找它的映射位置去放置，知道超出最大迭代次数或者找到空位置来放。如果超出threshold，会进行空间扩大，然后重映射整张表。
cuckoohash解决了bloomfilter的误报特性以及不能删除的缺点。而且cuckoo的空间使用效率很高。