如何减少全表扫描对 Hbase 集群的影响？答案

【问题标题】：How to decrease full table scan impact on Hbase cluster?如何减少全表扫描对 Hbase 集群的影响？
【发布时间】：2016-09-23 18:20:56
【问题描述】：

是否有可能限制不良查询对 Hbase 集群的影响？

如果是，需要达到什么目标？

我是否需要 kerberos 来识别用户并限制他们的查询影响或为他们分配资源？

phoenix 的不良查询可能会杀死整个 Hbase 集群，这是我真正想要改变的。我将非常感谢有关此主题的任何提示。

【问题讨论】：

标签： hbase hortonworks-data-platform

【解决方案1】：

在 2.0 之前的版本中运行 OLAP 查询时，我们在 Splice Machine 遇到了类似的问题。在 2.0 中，我们引入了在 Spark 上实现的新执行引擎，它使用混合扫描器直接从 HFile 读取数据并将其与来自 HBase Memstore 的数据合并，从而使我们能够将此类大型扫描对区域服务器的影响降至最低，因为我们只访问 HBase 的内存数据。

您可以在our repository 中查看我们是如何实现它的。主要类是SplitRegionScanner 和MemstoreAwareObserver。

【讨论】：

出于好奇：如何通过 HBase 快照确保 HFile 在 Spark 查询期间保持一致？
@SamsonScharfrichter 我们使用协处理器（我之前链接的 MemstoreAwareObserver）来确保我们的扫描是一致的。如果压缩或拆分正在运行（几毫秒），我们会延迟我们的扫描，并在该区域运行扫描时阻止压缩/拆分。