如何检测那个大 pandas 数据帧与之前有不同的数据

How to detect that large pandas dataframe has different data then before

我使用 pandas 处理大于 1GB 的大型 csv 文件。该脚本应检测数据框中的数据是否与之前 运行 中的数据不同。我无法存储过去的数据框。 我正在寻找 returns 一种来自 pandas 数据帧的哈希值的快速函数。这样我就可以只存储和比较那些“类似哈​​希”的值。

import joblib
joblib.hash(df)

这应该有用吗?

此未记录的散列也存在于 pandas 20.1:

from pandas.util import hash_pandas_object
h = hash_pandas_object(df)

如果您想要一个整体价值而不是每个系列的价值,只需调用 .sum() hash_pandas_object returns。