【发布时间】:2019-07-10 12:44:19
【问题描述】:
我们正在开发一个使用 HBase 作为操作数据存储的项目;所有数据都实时进入 hbase。并且,每隔 2 小时,需要将 Hbase 中的数据同步到 Hive。这是为了使分析查询能够在最新数据之上运行。
用于将数据从 Hbase 同步到 Hive:
对于仅插入/更新的场景,我可以使用 hbase 提供的时间戳列来了解插入/更新的记录。 对于“删除”场景,我正在努力寻找正确的方法。
HBase Scan API 是否提供任何选项来做到这一点?
或者我应该使用 Apache Phoenix 之类的任何 SQL 选项来做同样的事情吗?
【问题讨论】:
-
可以从Hive中查询Hbase...
-
我希望您了解 Hive+HBase 表,但根据我的经验,它不适合分析用例(性能方面)