【发布时间】:2014-09-11 04:05:08
【问题描述】:
是否可以将 h5py 数据集分成两个子集而不实际将它们加载到内存中?例如:
dset = h5py.File("/2tbhd/tst.h5py","r")
X_train = dset['X'][:N/2]
X_test = dset['X'][N/2:-1]
【问题讨论】:
-
您发布的代码有什么问题?
-
他发布的代码会立即将这些数据点加载到内存中。他想传递对他数据的两半的两个引用,而不传递大数组。
-
我不知道怎么做。起初我认为区域引用可能是您需要的,但据我所知,这不是答案。
-
现在我记得 h5py 邮件列表上的这个旧线程:groups.google.com/d/msg/h5py/9WKEiIIBBR8/lbaXCZ7WQFYJ
-
@JohnZwinck,正如 superbatfish 所说,这段代码会立即将数据加载到内存中。