【发布时间】:2017-06-27 18:32:28
【问题描述】:
我只是使用 spark 读取 parquet 文件并执行 repartition(1)shuffle;然后保存回镶木地板文件。有线的事情是新文件比原始文件大得多。甚至元数据文件也比原始文件大数百 kb。有没有人注意到这个问题?有没有办法在一种压缩策略下使 parquet 文件尽可能小(例如:.gz 格式)?
编辑: 我阅读了其他帖子并了解了这个问题的基本概念。我还是希望讨论一下我们应该选择什么样的列来做排序工作。我希望找到通用的优化策略来完成这项工作。
【问题讨论】:
标签: apache-spark compression parquet