创建一个大的 pd.dataframe - 如何？答案

【问题标题】：Creating a large pd.dataframe - how?创建一个大的 pd.dataframe - 如何？
【发布时间】：2018-03-20 07:33:33
【问题描述】：

我想在 7 个文件中创建一个 4GB .txt 文件的大型 pd.dataframe，我想使用它 + 保存到 .csv

我做了什么：

创建了一个 for 循环并在轴 = 0 上一个接一个地打开连接，因此继续我的索引（时间戳）。

但是，即使我正在使用 100GB Ram 服务器，我也遇到了内存问题。我在某处读到 pandas 占用了 5-10 倍的数据大小。

我有哪些选择？

一个正在创建一个空的 csv - 打开它 + txt + 附加一个新块并保存。

其他想法？

【问题讨论】：

检查 dask 是否有分块数据帧。此外，您可能需要重新考虑 csv 并使用压缩的二进制格式来存储数据，这样可以节省一些空间并在读取数据时节省时间。 tech.blue-yonder.com/…

【解决方案1】：

使用 h5py 库创建 hdf5 文件将允许您创建一个大数据集并访问它，而无需将所有数据加载到内存中。

这个答案提供了一个如何创建和增量增加 hdf5 数据集的示例：incremental writes to hdf5 with h5py

【讨论】：