【发布时间】:2013-11-07 12:12:27
【问题描述】:
我正在尝试找到使用 Python/Pandas 将大型数据帧 (250MB+) 高效写入磁盘和从磁盘写入的最佳方法。 Python for Data Analysis中的所有方法我都试过了,但性能非常令人失望。
这是探索将我们当前的分析/数据管理环境从 Stata 迁移到 Python 的大型项目的一部分。当我将测试中的读/写时间与我在 Stata 中获得的时间进行比较时,Python 和 Pandas 通常需要 20 倍以上的时间。
我强烈怀疑我是问题所在,而不是 Python 或 Pandas。
有什么建议吗?
【问题讨论】:
-
您可以重新阅读书中的HDF5段落,使用此存储获得持久存储非常有效。如果您解释并显示您为该方法测试的代码,它可能会有所帮助,您可能会效率低下。
-
是什么让你怀疑自己是问题所在?
-
store = HDFStore('myfile.h5') store['df'] = df
-
请发帖:
df.head()和df.info()