如何检测那个大 pandas 数据帧与之前有不同的数据

Question

我使用 pandas 处理大于 1GB 的大型 csv 文件。该脚本应检测数据框中的数据是否与之前运行中的数据不同。我无法存储过去的数据框。我正在寻找 returns 一种来自 pandas 数据帧的哈希值的快速函数。这样我就可以只存储和比较那些“类似哈希”的值。

Answer 1

import joblib
joblib.hash(df)

这应该有用吗？

此未记录的散列也存在于 pandas 20.1:

from pandas.util import hash_pandas_object
h = hash_pandas_object(df)

如果您想要一个整体价值而不是每个系列的价值，只需调用 .sum() hash_pandas_object returns。

How to detect that large pandas dataframe has different data then before