【发布时间】:2018-09-17 08:32:53
【问题描述】:
受设备限制,我只能为巨大的数据集(>100GB)生成几个 h5 文件(每个文件的格式与 [idx, 1, 224, 224] 的形状相同),现在我很困惑将这些文件组合成一个文件以在 PyTorch 上进行进一步培训的解决方案。 enter image description here
【问题讨论】:
受设备限制,我只能为巨大的数据集(>100GB)生成几个 h5 文件(每个文件的格式与 [idx, 1, 224, 224] 的形状相同),现在我很困惑将这些文件组合成一个文件以在 PyTorch 上进行进一步培训的解决方案。 enter image description here
【问题讨论】:
在h5py中,组和文件支持copy(),可以用来在文件之间移动组(包括根组)及其内容。
在此处查看文档(向下滚动以找到 copy()):
http://docs.h5py.org/en/latest/high/group.html
HDF5 发行版还包括一个名为 h5copy 的命令行工具,可用于移动内容,C API 有一个 H5Ocopy() 函数。
【讨论】: