【发布时间】:2017-08-24 15:05:55
【问题描述】:
我们在 HBase 中存储数据时遇到了一个问题。我们已经采取了这样的步骤:
- Spark 应用程序正在处理大 csv 文件(大小:20 G),结果是 hfiles(结果数据大小:180 G)。
- 使用命令创建表:
'TABLE_NAME', {'NAME'=>'cf', 'COMPRESSION'=>'SNAPPY'} - 来自创建的 hfile 的数据通过命令
hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles -Dhbase.mapreduce.bulkload.max.hfiles.perRegion.perFamily=1024 hdfs://ip:8020/path TABLE_NAME批量加载
在加载表后立即大小为 180 G,但在一段时间后(昨天是晚上 8 点,两天前是早上 8 点左右)启动了一个进程,将数据压缩到 14 G 大小。
我的问题是这个过程的名称是什么?这是一个主要的压实吗?因为我正在尝试手动触发压缩(major_compact 和 compact),但这是在未压缩表上启动的命令的输出:
hbase(main):001:0> major_compact 'TEST_TYMEK_CRM_ACTION_HISTORY'
0 row(s) in 1.5120 seconds
【问题讨论】: