spark中相同镶木地板文件的不同大小答案

【问题标题】：different size of same parquet file in sparkspark中相同镶木地板文件的不同大小
【发布时间】：2017-06-27 18:32:28
【问题描述】：

我只是使用 spark 读取 parquet 文件并执行 repartition(1)shuffle;然后保存回镶木地板文件。有线的事情是新文件比原始文件大得多。甚至元数据文件也比原始文件大数百 kb。有没有人注意到这个问题？有没有办法在一种压缩策略下使 parquet 文件尽可能小（例如：.gz 格式）？

编辑：我阅读了其他帖子并了解了这个问题的基本概念。我还是希望讨论一下我们应该选择什么样的列来做排序工作。我希望找到通用的优化策略来完成这项工作。

【问题讨论】：

Why are Spark Parquet files for an aggregate larger than the original?的可能重复

标签： apache-spark compression parquet

【解决方案1】：

我想说我同意我帖子中链接帖子的想法。在我的情况下，排序将是一个不错的选择。具体来说，我使用不同的列进行了测试，也使用了单列和复合列。通常，使用包含文件大部分信息的列进行排序是一种有效的策略。欢迎任何评论。

【讨论】：