【发布时间】:2018-10-20 18:10:03
【问题描述】:
给定一个压缩文件,在 hadoop 平台上编写,采用以下格式之一:
- Avro
- 镶木地板
- 序列文件
如何找到使用的压缩编解码器?假设使用以下压缩编解码器之一(并且文件名中没有文件扩展名):
- 活泼
- Gzip(Avro 不支持)
- 放气(Parquet 不支持)
【问题讨论】:
-
您可以尝试使用十六进制编辑器或以其他方式检查原始字节... Avro 和 Parquet 至少具有明确定义的二进制格式,并将列出它们的内部压缩
标签: hadoop compression avro parquet sequencefile