大数据文件格式:parquet(column)、 Avro(Row)、 ORC(column)
相同点: 基于hadoop文件系统优化出的存储结构
提供高效的压缩
二进制存储格式
文件可分割
使用schema进行自我描述
列式存储:跳过不符合条件的数据,只读取需要的数据,减少了IO
大数据文件格式:parquet(column)、 Avro(Row)、 ORC(column)
相同点: 基于hadoop文件系统优化出的存储结构
提供高效的压缩
二进制存储格式
文件可分割
使用schema进行自我描述
列式存储:跳过不符合条件的数据,只读取需要的数据,减少了IO
相关文章: