【问题标题】:Is ORC File with Snappy Compression Splittable at Stripe?带有 Snappy 压缩的 ORC 文件可以在 Stripe 上拆分吗?
【发布时间】:2016-06-22 13:52:04
【问题描述】:

带有 Snappy 压缩的 ORC 文件是否可以在条带上拆分? 据我所知,Snappy 压缩文件不可拆分。 但我在一篇博客中读到,snappy 压缩文件可以按条纹分割。 这是真的吗?

【问题讨论】:

  • cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC 可以清楚地看出,一个ORC文件分为独立“条纹”和条纹页脚(其中包含一些元数据,即min/max每列的值) 可以直接访问,例如seek()。我想知道如果压缩是在文件级别完成的,如何做到这一点......所以我倾向于相信那些断言压缩是在条带+列级别完成的博客。

标签: hadoop hive snappy orc


【解决方案1】:

您必须创建自己的 InputFormat 类,我不相信 OrcInputFormatOrcNewInputFormat 支持在条带级别进行拆分。

【讨论】:

    猜你喜欢
    • 2018-07-27
    • 1970-01-01
    • 2016-08-20
    • 1970-01-01
    • 1970-01-01
    • 2020-02-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多