【问题标题】:Creating a large pd.dataframe - how?创建一个大的 pd.dataframe - 如何?
【发布时间】:2018-03-20 07:33:33
【问题描述】:

我想在 7 个文件中创建一个 4GB .txt 文件的大型 pd.dataframe,我想使用它 + 保存到 .csv

我做了什么:

创建了一个 for 循环并在轴 = 0 上一个接一个地打开连接,因此继续我的索引(时间戳)。

但是,即使我正在使用 100GB Ram 服务器,我也遇到了内存问题。我在某处读到 pandas 占用了 5-10 倍的数据大小。

我有哪些选择?

一个正在创建一个空的 csv - 打开它 + txt + 附加一个新块并保存。

其他想法?

【问题讨论】:

  • 检查 dask 是否有分块数据帧。此外,您可能需要重新考虑 csv 并使用压缩的二进制格式来存储数据,这样可以节省一些空间并在读取数据时节省时间。 tech.blue-yonder.com/…

标签: python pandas dataframe out-of-memory


【解决方案1】:

使用 h5py 库创建 hdf5 文件将允许您创建一个大数据集并访问它,而无需将所有数据加载到内存中。

这个答案提供了一个如何创建和增量增加 hdf5 数据集的示例:incremental writes to hdf5 with h5py

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2017-03-12
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多