高效地将大型 Pandas 数据帧读取到磁盘

【问题标题】：Efficiently writing large Pandas data frames to disk高效地将大型 Pandas 数据帧读取到磁盘
【发布时间】：2013-11-07 12:12:27
【问题描述】：

我正在尝试找到使用 Python/Pandas 将大型数据帧 (250MB+) 高效写入磁盘和从磁盘写入的最佳方法。 Python for Data Analysis中的所有方法我都试过了，但性能非常令人失望。

这是探索将我们当前的分析/数据管理环境从 Stata 迁移到 Python 的大型项目的一部分。当我将测试中的读/写时间与我在 Stata 中获得的时间进行比较时，Python 和 Pandas 通常需要 20 倍以上的时间。

我强烈怀疑我是问题所在，而不是 Python 或 Pandas。

有什么建议吗？

【问题讨论】：

您可以重新阅读书中的HDF5段落，使用此存储获得持久存储非常有效。如果您解释并显示您为该方法测试的代码，它可能会有所帮助，您可能会效率低下。
是什么让你怀疑自己是问题所在？
store = HDFStore('myfile.h5') store['df'] = df
请发帖：df.head() 和 df.info()

标签： python pandas

【解决方案1】：

使用HDFStore 是你最好的选择（书中没有详细介绍，并且变化很大）。您会发现性能比任何其他序列化方法都要好。

【讨论】：

确实，HDF5 运行良好，尤其是在使用正确的选项集的情况下。使用 blosc 压缩，chunksize=4 和 complevel=3 被证明是最快的。
很大程度上取决于您的存储方式（例如，一次全部追加通常是最好的），您是否需要追加和压缩。我的2c;该块大小非常小，默认为 50k 行。

猜你喜欢

1970-01-01
2013-06-10
2019-08-13
2017-10-15
1970-01-01
1970-01-01
1970-01-01
2018-01-09
1970-01-01

相关资源

下载 2021-06-05
下载 2023-02-05
下载 2023-04-06

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode