如何检测那个大 pandas 数据帧与之前有不同的数据
How to detect that large pandas dataframe has different data then before
我使用 pandas 处理大于 1GB 的大型 csv 文件。该脚本应检测数据框中的数据是否与之前 运行 中的数据不同。我无法存储过去的数据框。
我正在寻找 returns 一种来自 pandas 数据帧的哈希值的快速函数。这样我就可以只存储和比较那些“类似哈希”的值。
import joblib
joblib.hash(df)
这应该有用吗?
此未记录的散列也存在于 pandas 20.1:
from pandas.util import hash_pandas_object
h = hash_pandas_object(df)
如果您想要一个整体价值而不是每个系列的价值,只需调用 .sum()
hash_pandas_object
returns。
我使用 pandas 处理大于 1GB 的大型 csv 文件。该脚本应检测数据框中的数据是否与之前 运行 中的数据不同。我无法存储过去的数据框。 我正在寻找 returns 一种来自 pandas 数据帧的哈希值的快速函数。这样我就可以只存储和比较那些“类似哈希”的值。
import joblib
joblib.hash(df)
这应该有用吗?
此未记录的散列也存在于 pandas 20.1:
from pandas.util import hash_pandas_object
h = hash_pandas_object(df)
如果您想要一个整体价值而不是每个系列的价值,只需调用 .sum()
hash_pandas_object
returns。