【发布时间】:2018-03-20 07:33:33
【问题描述】:
我想在 7 个文件中创建一个 4GB .txt 文件的大型 pd.dataframe,我想使用它 + 保存到 .csv
我做了什么:
创建了一个 for 循环并在轴 = 0 上一个接一个地打开连接,因此继续我的索引(时间戳)。
但是,即使我正在使用 100GB Ram 服务器,我也遇到了内存问题。我在某处读到 pandas 占用了 5-10 倍的数据大小。
我有哪些选择?
一个正在创建一个空的 csv - 打开它 + txt + 附加一个新块并保存。
其他想法?
【问题讨论】:
-
检查 dask 是否有分块数据帧。此外,您可能需要重新考虑 csv 并使用压缩的二进制格式来存储数据,这样可以节省一些空间并在读取数据时节省时间。 tech.blue-yonder.com/…
标签: python pandas dataframe out-of-memory