【问题标题】:How to store a pandas dataframe in the smallest format possible?如何以尽可能小的格式存储熊猫数据框?
【发布时间】:2019-10-11 01:51:02
【问题描述】:

有很多关于存储 pandas 数据帧的最有效方法的文档(例如 How to store a dataframe using Pandas),但大部分资源都集中在 i/o 时间效率上。

我想将大型 pandas 数据帧(通常以 csv 格式使用数 Gb 磁盘存储)保存为更轻量级的格式,而不会丢失任何信息。

LightGBM Dataset 看起来很有希望,但我没能正确地重新加载我的数据。

有什么建议吗?

【问题讨论】:

  • 我通常使用joblib,它以二进制形式保存。我听说df.to_feather 也很有效,但不要尝试。
  • 我使用带有 blosс 压缩的 pandas to_hdf。看这里的比较:dziganto.github.io/out-of-core%20computation/…
  • towardsdatascience.com/… "正如我们的小测试显示的那样,羽毛格式似乎是在 Jupyter 会话之间存储数据的理想候选者。它显示出高 I/O 速度,不占用太多内存在磁盘上,并且在加载回 RAM 时不需要任何解包。”

标签: python pandas save disk


【解决方案1】:

如果您正在寻找文件大小,Apache Parquet 可能是您最好的朋友。 正如@wkzhu 的文章所建议的那样,这可以实现最佳压缩,尤其是在您有分类数据的情况下。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2022-11-13
    • 2022-01-20
    • 2021-04-02
    • 1970-01-01
    • 2020-08-03
    • 1970-01-01
    • 2018-03-20
    相关资源
    最近更新 更多