【发布时间】:2017-09-05 12:56:46
【问题描述】:
在互联网上搜索和阅读有关此主题的答案时,我收到了令人困惑的消息。任何人都可以分享他们的经验吗?我知道 gzipped csv 不是这样的事实,但 Parquet 的文件内部结构可能与 Parquet 与 csv 的情况完全不同?
【问题讨论】:
标签: apache-spark gzip parquet
在互联网上搜索和阅读有关此主题的答案时,我收到了令人困惑的消息。任何人都可以分享他们的经验吗?我知道 gzipped csv 不是这样的事实,但 Parquet 的文件内部结构可能与 Parquet 与 csv 的情况完全不同?
【问题讨论】:
标签: apache-spark gzip parquet
采用 GZIP 压缩的 Parquet 文件实际上是可拆分的。这是因为 Parquet 文件的内部布局。这些总是可拆分的,与使用的压缩算法无关。
这主要是由于 Parquet 文件的设计分为以下几个部分:
你可以在这里找到更详细的解释:https://github.com/apache/parquet-format#file-format
【讨论】:
gz.parquet。压缩应该通过 Parquet 实现在 Parquet 内部完成。如果您有一个工具首先生成 Parquet,然后在其上运行 GZIP,那么这些实际上是无效的 Parquet 文件。对于 Parquet,必须不压缩格式的某些部分(例如标题)。这些部分很小(通常大约 1 或 2 KiB),但压缩它们会导致显着的性能损失。