两者主要共性

  • 都是apache顶级项目,都是高性能的列式存储格式
  • Parquet和Orc都是以二进制方式存储的,所以不可以直接读取
  • 支持的编码格式(游程,字典,增量,bit),压缩格式(zlib,snappy,LZO等等)基本一致

两者主要差异

摘自网上的两张图,基本概括了Parquet和Orc两种存储格式的主要差异 

Parquet和Orc存储格式对比

Parquet和Orc存储格式对比

相关文章: