【问题标题】:different size of same parquet file in sparkspark中相同镶木地板文件的不同大小
【发布时间】:2017-06-27 18:32:28
【问题描述】:

我只是使用 spark 读取 parquet 文件并执行 repartition(1)shuffle;然后保存回镶木地板文件。有线的事情是新文件比原始文件大得多。甚至元数据文件也比原始文件大数百 kb。有没有人注意到这个问题?有没有办法在一种压缩策略下使 parquet 文件尽可能小(例如:.gz 格式)?

编辑: 我阅读了其他帖子并了解了这个问题的基本概念。我还是希望讨论一下我们应该选择什么样的列来做排序工作。我希望找到通用的优化策略来完成这项工作。

【问题讨论】:

标签: apache-spark compression parquet


【解决方案1】:

我想说我同意我帖子中链接帖子的想法。在我的情况下,排序将是一个不错的选择。具体来说,我使用不同的列进行了测试,也使用了单列和复合列。通常,使用包含文件大部分信息的列进行排序是一种有效的策略。欢迎任何评论。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2021-02-28
    • 1970-01-01
    • 2019-06-02
    • 2019-11-20
    • 1970-01-01
    • 2016-07-04
    • 2017-11-11
    • 2017-01-22
    相关资源
    最近更新 更多