【发布时间】:2021-05-06 14:03:59
【问题描述】:
我使用 pandas 处理大于 1GB 的大型 csv 文件。该脚本应检测数据框中的数据是否与之前运行的数据不同。我无法存储过去的数据框。 我正在寻找从 pandas 数据帧返回一种哈希值的快速函数。这样我就可以只存储和比较那些“类似哈希”的值。
【问题讨论】:
标签: python pandas large-data
我使用 pandas 处理大于 1GB 的大型 csv 文件。该脚本应检测数据框中的数据是否与之前运行的数据不同。我无法存储过去的数据框。 我正在寻找从 pandas 数据帧返回一种哈希值的快速函数。这样我就可以只存储和比较那些“类似哈希”的值。
【问题讨论】:
标签: python pandas large-data
import joblib
joblib.hash(df)
这应该可以吗?
这个未记录的哈希也存在于pandas 20.1:
from pandas.util import hash_pandas_object
h = hash_pandas_object(df)
如果您想要一个整体价值而不是像hash_pandas_object 返回的每个系列,只需调用.sum()。
【讨论】: