【问题标题】:Calculate mean of large numpy array which is memmapped from hdf5 file计算从 hdf5 文件中映射的大型 numpy 数组的平均值
【发布时间】:2018-03-25 11:18:54
【问题描述】:

我在计算 numpy 中对于 RAM(~100G)来说太大的数组的平均值时遇到了问题。


我已经研究过使用np.memmap,但不幸的是,我的数组作为数据集存储在 hdf5 文件中。根据我的尝试,np.memmap 不接受 hdf5 数据集作为输入。
TypeError: coercing to Unicode: need string or buffer, Dataset found

那么我怎样才能以有效的方式从磁盘调用内存映射数组上的np.mean?当然,我可以遍历数据集的某些部分,每个部分都适合内存。
但是,这感觉太像一种解决方法,我也不确定它是否会达到最佳性能。


这里有一些示例代码:

data = np.randint(0, 255, 100000*10*10*10, dtype=np.uint8)
data.reshape((100000,10,10,10)) # typically lot larger, ~100G

hdf5_file = h5py.File('data.h5', 'w')
hdf5_file.create_dataset('x', data=data, dtype='uint8')

def get_mean_image(filepath):
    """
    Returns the mean_array of a dataset.
    """
    f = h5py.File(filepath, "r")
    xs_mean = np.mean(f['x'], axis=0) # memory error with large enough array

    return xs_mean

xs_mean = get_mean_image('./data.h5')

【问题讨论】:

  • 我会继续对h5py 数据集进行分块读取。让它工作。然后您可以测试迭代是否真的在花费您的时间。对于大型数组,内存管理的成本可能会超过迭代的成本。
  • 你是对的,它实际上并没有花那么多钱。唯一的麻烦是你必须编码的循环,所以它不是那么优雅。谢谢!

标签: python numpy h5py


【解决方案1】:

正如 hpaulj 在 cmets 中建议的那样,我刚刚将平均计算分成多个步骤。
如果它可能对某人有用,这是我的(简化的)代码:

def get_mean_image(filepath):
    """
    Returns the mean_image of a xs dataset.
    :param str filepath: Filepath of the data upon which the mean_image should be calculated.
    :return: ndarray xs_mean: mean_image of the x dataset. 
    """
    f = h5py.File(filepath, "r")

    # check available memory and divide the mean calculation in steps
    total_memory = 0.5 * psutil.virtual_memory() # In bytes. Take 1/2 of what is available, just to make sure.
    filesize = os.path.getsize(filepath)
    steps = int(np.ceil(filesize/total_memory))
    n_rows = f['x'].shape[0]
    stepsize = int(n_rows / float(steps))

    xs_mean_arr = None
    for i in xrange(steps):
        if xs_mean_arr is None: # create xs_mean_arr that stores intermediate mean_temp results
            xs_mean_arr = np.zeros((steps, ) + f['x'].shape[1:], dtype=np.float64)

        if i == steps-1: # for the last step, calculate mean till the end of the file
            xs_mean_temp = np.mean(f['x'][i * stepsize: n_rows], axis=0, dtype=np.float64)
        else:
            xs_mean_temp = np.mean(f['x'][i*stepsize : (i+1) * stepsize], axis=0, dtype=np.float64)
        xs_mean_arr[i] = xs_mean_temp

    xs_mean = np.mean(xs_mean_arr, axis=0, dtype=np.float64).astype(np.float32)

    return xs_mean

【讨论】:

  • 只有当所有桶的大小相同时,均值的均值才等于真实均值。你的最后一个桶不是,所以它会稍微扭曲你的结果。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2021-06-06
  • 2014-01-23
  • 2012-08-29
  • 1970-01-01
  • 2020-12-09
  • 2016-08-24
  • 1970-01-01
相关资源
最近更新 更多