【发布时间】:2021-03-24 16:00:20
【问题描述】:
我有一个以 GZIP 格式存储在磁盘上的 pandas 数据框。在 RAM 上它大约 90GB,当我使用 pandas.to_parquet 将它保存为 gzip 时,它压缩到大约 3GB。
我最近使用 pandas.sort_values 在不同的列上对其进行了排序,当我使用相同的方法保存它时,磁盘上的大小突然变成了 60GB。
为什么会发生这种情况?是否有不同的排序/保存方法来防止这种情况发生?
【问题讨论】:
-
gzip 在 32 KB 的窗口中查找字符串重复。如果您的重复字符串相距太远,它们将不会被识别,因此不会很好地压缩。您可以尝试
brotli方法,它应该能够使用最大 16 MB 的窗口,虽然我不知道 pandas 使用什么参数。
标签: pandas compression parquet