【发布时间】:2019-10-11 01:51:02
【问题描述】:
有很多关于存储 pandas 数据帧的最有效方法的文档(例如 How to store a dataframe using Pandas),但大部分资源都集中在 i/o 时间效率上。
我想将大型 pandas 数据帧(通常以 csv 格式使用数 Gb 磁盘存储)保存为更轻量级的格式,而不会丢失任何信息。
LightGBM Dataset 看起来很有希望,但我没能正确地重新加载我的数据。
有什么建议吗?
【问题讨论】:
-
我通常使用
joblib,它以二进制形式保存。我听说df.to_feather也很有效,但不要尝试。 -
我使用带有 blosс 压缩的 pandas to_hdf。看这里的比较:dziganto.github.io/out-of-core%20computation/…
-
towardsdatascience.com/… "正如我们的小测试显示的那样,羽毛格式似乎是在 Jupyter 会话之间存储数据的理想候选者。它显示出高 I/O 速度,不占用太多内存在磁盘上,并且在加载回 RAM 时不需要任何解包。”