【发布时间】:2021-06-23 10:04:27
【问题描述】:
当文件从 linux 机器作为记录上传到 Hbase 表时,我们观察到数据大小减少(文件系统上 10 GB ~ Hbase 表中 6-8 GB)。 hbase 表上没有采用压缩方法,并且也禁用了主要压缩。找不到原因??
【问题讨论】:
当文件从 linux 机器作为记录上传到 Hbase 表时,我们观察到数据大小减少(文件系统上 10 GB ~ Hbase 表中 6-8 GB)。 hbase 表上没有采用压缩方法,并且也禁用了主要压缩。找不到原因??
【问题讨论】:
这取决于记录在 Linux 机器上的存储方式。如果它们是 JSON,那么每个键都与每个值一起存储,这会大大增加文件大小。 HBase 以更加优化的列格式存储数据,丢弃键。
即使您不使用 JSON 并且未启用压缩,HBase 仍会利用优化来减小文件大小。
【讨论】: