如何将数组存储在太大而无法加载到内存中的 hdf5 文件中？答案

【问题标题】：How to store an array in hdf5 file which is too big to load in memory?如何将数组存储在太大而无法加载到内存中的 hdf5 文件中？
【发布时间】：2015-05-26 09:16:42
【问题描述】：

有没有办法将数组存储在 hdf5 文件中，该文件太大而无法加载到内存中？

如果我这样做

f = h5py.File('test.hdf5','w')
f['mydata'] = np.zeros(2**32)

我遇到内存错误。

【问题讨论】：

看看hyperslabs。有可能，但您应该写入“块”，并使 hdf5 文件可分块。
docs.h5py.org/en/latest/high/dataset.html#chunked-storage

标签： python memory numpy hdf5

【解决方案1】：

根据documentation，您可以使用create_dataset创建一个分块数组存储在hdf5中。示例：

>>> import h5py
>>> f = h5py.File('test.h5', 'w')
>>> arr = f.create_dataset('mydata', (2**32,), chunks=True)
>>> arr
<HDF5 dataset "mydata": shape (4294967296,), type "<f4">

对HDF5 dataset 进行切片会返回 Numpy 数组。

>>> arr[:10]
array([ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.], dtype=float32)
>>> type(arr[:10])
numpy.array

您可以像 Numpy 数组一样设置值。

>>> arr[3:5] = 3
>>> arr[:6]
array([ 0.,  0.,  0.,  3.,  3.,  0.], dtype=float32)

我不知道这是否是最有效的方法，但您可以分块迭代整个数组。例如将其设置为随机值：

>>> import numpy as np
>>> for i in range(0, arr.size, arr.chunks[0]):
        arr[i: i+arr.chunks[0]] = np.random.randn(arr.chunks[0])
>>> arr[:5]
array([ 0.62833798,  0.03631227,  2.00691652, -0.16631022,  0.07727782], dtype=float32)

【讨论】：

如果事先不知道数据集大小怎么办？可以在追加模式下完成吗？
@mrgloom 也许这适合您的需求？ stackoverflow.com/a/25656175/3635816