【问题标题】:h5py - Write object dynamically to file?h5py - 将对象动态写入文件?
【发布时间】:2017-10-18 09:23:02
【问题描述】:

我正在尝试将常规 python 对象(包括几个键/值对)写入 hdf5 文件。我将 h5py 2.7.0 与 python 3.5.2.3 一起使用。

现在,我正在尝试将一个对象完整地写入数据集:

#...read dataset, store one data object in 'obj'
#obj could be something like: {'value1': 0.09, 'state': {'angle_rad': 0.034903, 'value2': 0.83322}, 'value3': 0.3}
dataset = h5File.create_dataset('grp2/ds3', data=obj)

这会产生错误,因为基础dtype 无法转换为native HDF5 equivalent

  File "\python-3.5.2.amd64\lib\site-packages\h5py\_hl\group.py", line 106, in create_dataset
    dsid = dataset.make_new_dset(self, shape, dtype, data, **kwds)
  File "\python-3.5.2.amd64\lib\site-packages\h5py\_hl\dataset.py", line 100, in make_new_dset
    tid = h5t.py_create(dtype, logical=1)
  File "h5py\h5t.pyx", line 1543, in h5py.h5t.py_create (D:\Build\h5py\h5py-hdf5
110-git\h5py\h5t.c:18116)
  File "h5py\h5t.pyx", line 1565, in h5py.h5t.py_create (D:\Build\h5py\h5py-hdf5
110-git\h5py\h5t.c:17936)
  File "h5py\h5t.pyx", line 1620, in h5py.h5t.py_create (D:\Build\h5py\h5py-hdf5
110-git\h5py\h5t.c:17837)
TypeError: Object dtype dtype('O') has no native HDF5 equivalent

是否可以以“动态”方式将对象写入 HDF5 文件?

【问题讨论】:

  • 不,您不能将通用 Python 对象写入hdf5 文件(字典、列表、类等)。该文件格式旨在保存数字数据,大致相当于numpy 数组,以及字符串等少量其他内容。
  • @hpaulj 我的对象包含 int、double、float 类型的字段以及一些字符串。我要问的是,是否有一种“自动”的方法可以从我拥有的对象结构中创建 hdf5 复合类型。这样我就可以在循环中重用该复合类型并将我的对象传递给它。我知道我可以通过使用复合类型在 HDF5 中拥有类似对象的结构。但是如何使用 h5py 创建它们?
  • 所以你问的是保存结构化数组?复合数据类型还是对象数据类型?
  • @hpaulj 复合数据类型。我对 h5py 和 python 不是很熟悉,因为我之前使用过 HDF5s C++ API。请参阅support.hdfgroup.org/HDF5/Tutor/compound.html 和此处groups.google.com/forum/#!searchin/h5py/compound|sort:relevance/… - 第二个链接显示了如何在 h5py 中完成此操作。 if useCompoundType 之后的代码是我几分钟前偶然发现的。这看起来很有希望。我正在寻找一种以动态方式进行他的datatype=[('timeStamp', 'float32'), ('value','float32')] 初始化的方法。有什么想法吗?
  • 我自己没有尝试过,但也许 hickle 对你的情况有用。 github.com/telegraphic/hickle

标签: python numpy hdf5 h5py


【解决方案1】:

如果您要保存的对象是嵌套字典,带有数值,则可以使用 H5 文件的 group/set 结构重新创建它。

一个简单的递归函数是:

def write_layer(gp, adict):
    for k,v in adict.items():
        if isinstance(v, dict):
            gp1 = gp.create_group(k)
            write_layer(gp1, v)
        else:
            gp.create_dataset(k, data=np.atleast_1d(v))

In [205]: dd = {'value1': 0.09, 'state': {'angle_rad': 0.034903, 'value2': 0.83322}, 'value3': 0.3}

In [206]: f = h5py.File('test.h5', 'w')
In [207]: write_layer(f, dd)

In [208]: list(f.keys())
Out[208]: ['state', 'value1', 'value3']
In [209]: f['value1'][:]
Out[209]: array([ 0.09])
In [210]: f['state']['value2'][:]
Out[210]: array([ 0.83322])

您可能希望对其进行优化并将标量保存为属性而不是完整的数据集。

def write_layer1(gp, adict):
    for k,v in adict.items():
        if isinstance(v, dict):
            gp1 = gp.create_group(k)
            write_layer1(gp1, v)
        else:
            if isinstance(v, (np.ndarray, list)):
                gp.create_dataset(k, np.atleast_1d(v))
            else:
                gp.attrs.create(k,v)

In [215]: list(f.keys())
Out[215]: ['state']
In [218]: list(f.attrs.items())
Out[218]: [('value3', 0.29999999999999999), ('value1', 0.089999999999999997)]
In [219]: f['state']
Out[219]: <HDF5 group "/state" (0 members)>
In [220]: list(f['state'].attrs.items())
Out[220]: [('value2', 0.83321999999999996), ('angle_rad', 0.034903000000000003)]

检索数据集和属性的组合更加复杂,但您可以编写代码来隐藏它。


这是一种结构化数组方法(使用复合 dtype)

定义与您的字典结构匹配的数据类型。像这样的嵌套是可能的,但如果太深可能会很尴尬:

In [226]: dt=[('state',[('angle_rad','f'),('value2','f')]),
              ('value1','f'),
              ('value3','f')]
In [227]: dt = np.dtype(dt)

制作一个这种类型的空白数组,有几条记录;用您的字典中的数据填写一条记录。请注意,元组的嵌套必须与 dtype 嵌套匹配。更一般的结构化数据以此类元组的列表形式提供。

In [228]: arr = np.ones((3,), dtype=dt)
In [229]: arr[0]=((.034903, 0.83322), 0.09, 0.3)
In [230]: arr
Out[230]: 
array([(( 0.034903,  0.83322001),  0.09,  0.30000001),
       (( 1.      ,  1.        ),  1.  ,  1.        ),
       (( 1.      ,  1.        ),  1.  ,  1.        )], 
      dtype=[('state', [('angle_rad', '<f4'), ('value2', '<f4')]), ('value1', '<f4'), ('value3', '<f4')])

将数组写入 h5 文件很简单:

In [231]: f = h5py.File('test1.h5', 'w')
In [232]: g = f.create_dataset('data', data=arr)
In [233]: g.dtype
Out[233]: dtype([('state', [('angle_rad', '<f4'), ('value2', '<f4')]), ('value1', '<f4'), ('value3', '<f4')])
In [234]: g[:]
Out[234]: 
array([(( 0.034903,  0.83322001),  0.09,  0.30000001),
       (( 1.      ,  1.        ),  1.  ,  1.        ),
       (( 1.      ,  1.        ),  1.  ,  1.        )], 
      dtype=[('state', [('angle_rad', '<f4'), ('value2', '<f4')]), ('value1', '<f4'), ('value3', '<f4')])

理论上,我们可以编写像 write_layer 这样的函数,通过您的字典工作并构造相关的 dtype 和记录。

【讨论】:

  • 我已经设法根据您的回答和我自己在原始问题中的评论递归地构建我的 dtypes。不过,我有一个后续问题:如何将数据写入 hdf5 文件?我创建的数据类型可能与我的 obj 的结构不匹配。我想我需要将它们转移到声明数据类型的顺序中?这是正确的还是有更好的方法,即数据将(自动)通过 dtype 数组的名称访问?例如,当我在原始对象中有字段 A、B、C、D 但 dtype 的顺序为 B、A、C、D...
  • 更详细的示例: print(value.items()) = dict_items([('streamName', 'vehicle_gas_pedal'), ('value', 0.0)]) [('streamName', 'O'), ('value', '&lt;f8')], print(datatype) = [('streamName', 'O'), ('value', '&lt;f8')] - 当我尝试使用 array = np.array(value.items(), dtype=datatype) 将其转换为 np 数组时,我得到了错误ValueError: Setting void-array with object members using buffer.。不知道该怎么办。
  • 对不起,我忘了说 streamName 的类型已设置为:(伪代码)if(value_type == string) then obj_type[key] = h5py.special_dtype(vlen=str) 文档中提出的(docs.h5py.org/en/latest/strings.html
  • 开始一个新问题。在 cmets 中很难显示代码。
  • 在 Py3 中 adict.items() 是一个 dict_items 对象;您不能直接从中创建数组。我以 Py3 适当的方式使用了items()。如果您需要键/值元组列表,请使用 list(adict.items())
【解决方案2】:

我知道您的问题已经解决了,但是我今天遇到了类似的问题,想分享我的解决方案。相关:Print all properties of a Python Class

也许它会帮助某人。我写了两个小循环来保存/读取(几乎)任意类对象到/从 .hdf5 文件:

import h5py

class testclass:
    def __init__(self, name = '', color = ''):
        self.name = name
        self.color = color

testobj = testclass('Chair', 'Red')

with h5py.File('test.hdf5', 'w') as f:
    for item in vars(testobj).items():
        f.create_dataset(item[0], data = item[1])

然后在我要加载文件的脚本中:

import h5py

class testclass:
    def __init__(self, name = '', color = ''):
        self.name = name
        self.color = color

testobj = testclass()

with h5py.File('test.hdf5', 'r') as f:
    for key in f.keys():
        setattr(testobj, key, f[key].value)

像魅力一样工作。唯一的限制是您的类属性必须与 h5py 兼容。

【讨论】:

    猜你喜欢
    • 2015-05-15
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-03-24
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多