错误密度高的时间段(在数据帧中)

Periods in time with high density of error (in a data frame)

我有一个包含时间戳列和错误列的数据框,错误列有 6 种类型的值(NaN、D、E、F、G、H),我需要及时提取时间段错误 E 的密度很高,我不知道如何解决这个问题。

我的方法是创建一个直方图,然后我可以计算每个错误的概率密度,然后我会迭代所有的日子,select 那些 E 概率最高的日子。

有没有解决此类问题的方法?谢谢你的时间

这里有一个方法:

df.groupby(df.timestamp.dt.date).error.apply(lambda s: s.eq(2).sum() / s.size)

我们按时间戳的日期分组,并对 errors 应用一个函数,该函数采用组中 2 的比率。在此之后,您可以链接 idxmax 以获得错误密度最高的日期,或者链接 nlargest(n) 以获得最高的 n 个。

根据提供的示例数据,这给出:

timestamp
2019-11-10    0.4
Name: error, dtype: float64

(因为只有1天,所以只出现了。)