【发布时间】:2016-06-22 13:52:04
【问题描述】:
带有 Snappy 压缩的 ORC 文件是否可以在条带上拆分? 据我所知,Snappy 压缩文件不可拆分。 但我在一篇博客中读到,snappy 压缩文件可以按条纹分割。 这是真的吗?
【问题讨论】:
-
从cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC 可以清楚地看出,一个ORC文件分为独立“条纹”和条纹页脚(其中包含一些元数据,即min/max每列的值) 可以直接访问,例如
seek()。我想知道如果压缩是在文件级别完成的,如何做到这一点......所以我倾向于相信那些断言压缩是在条带+列级别完成的博客。