【发布时间】:2020-09-17 22:39:24
【问题描述】:
根据这个Cloudera post,Snappy 是可拆分的。
对于 MapReduce,如果您需要可拆分压缩数据,则 BZip2、LZO 和 Snappy 格式是可拆分的,但 GZip 不是。可拆分性与 HBase 数据无关。
但是从 hadoop 权威指南来看,Snappy 是不可拆分的。
网络上也有一些相互矛盾的信息。有人说它是可拆分的,有人说它不是。
【问题讨论】:
-
注意到了同样的事情,有趣的是,Cloudera 似乎是错误的。
-
他们更改了文档cloudera.com/documentation/enterprise/latest/topics/…,因此它是可拆分的,但只能使用容器格式