【发布时间】:2023-03-22 00:35:01
【问题描述】:
我想计算一个包含机器学习数据集的 Python 类的哈希值。哈希是用来缓存的,所以我在想md5 或sha1。
问题是大部分数据都存储在 NumPy 数组中;这些不提供__hash__() 成员。目前我为每个成员做一个pickle.dumps() 并根据这些字符串计算一个哈希值。但是,我发现以下链接表明同一个对象可能导致不同的序列化字符串:
为包含 Numpy 数组的 Python 类计算哈希的最佳方法是什么?
【问题讨论】:
-
不是一个经验丰富的 python 程序员,但是,序列化对象和散列会起作用吗?
标签: python hash numpy sha1 pickle