【发布时间】:2014-04-15 22:59:49
【问题描述】:
我在 Cloudera 集群中运行的 hbase 实例中有一些列。
我有一列包含未规范化的电话号码(比如说 phoneNum)(它们来自联络中心呼叫,带有许多前缀、#s 和 *s。例如 *107*065777113512#)。
我需要查询数据库以找到特定的电话号码(不带选项),因此它将是 phoneNum 中某些记录的子字符串。
问题如下:
如何索引 hbase 以获得良好的性能并避免全扫描?
我阅读了有关 solr integration、lucene、lily 的信息,但我不知道它们中的任何一个是否适用于这个问题。
提前致谢!
【问题讨论】:
标签: solr indexing hbase cloudera