HBase最佳实践之Scan

　　HBase中Scan从大的层面来看主要有三种常见用法：ScanAPI、TableScanMR以及SnapshotScanMR。三种用法的原理不尽相同，扫描效率当然相差甚远，最重要的是这几种用法适用于不同的应用场景，业务需要根据自己的使用场景选择合适的扫描方式。

　　HBase中scan并不像大家想象的那样直接发送一个命令过去，服务器就将满足扫描条件的所有数据一次性返回给客户端。而实际上它的工作原理如下图所示：

整个流程可以分为如下几个步骤：

next请求首先会检查客户端缓存中是否存在还没有读取的数据行，如果有就直接返回，否则需要将next请求给HBase服务器端【RegionServer】。
如果客户端缓存已经没有扫描结果，就会将next请求发送给HBase服务器端。默认情况下，一次next请求仅可以请求100行数据【或者返回结果集总大小不超过2M】。
服务器端接收到next请求之后就开始从BlockCache、HFile以及memcache中一行一行进行扫描，扫描的行数达到100行之后就返回给客户端，客户端将这100条数据缓存到内存并返回一条给上层业务。

上层业务一条一条不断的获取扫描数据，在数据量大的情况下HBase客户端会不断发送next请求到HBase服务器。有的朋友可能会问为什么scan需要设计为多次next请求的模式？个人认为这是基于多个层面的考虑：

HBase本身存储了海量数据，所以很多场景下一次scan请求的数据量都会比较大。如果不限制每次请求的数据集大小，很可能会导致系统带宽吃紧从而造成整个集群的不稳定。
如果不限制每次请求的数据集大小，很多情况下可能会造成客户端缓存OOM掉。
如果不限制每次请求的数据集大小，很可能服务器端扫描大量数据会花费大量时间，客户端和服务器端的连接就会timeout。

这样的设计有没有瑕疵？next策略可以避免在大数据量的情况下发生各种异常情况，但这样的设计对于扫描效率似乎并不友好，这里举两个例子：