错误密度高的时间段（在数据帧中）

Question

我有一个包含时间戳列和错误列的数据框，错误列有 6 种类型的值（NaN、D、E、F、G、H），我需要及时提取时间段错误 E 的密度很高，我不知道如何解决这个问题。

我的方法是创建一个直方图，然后我可以计算每个错误的概率密度，然后我会迭代所有的日子，select 那些 E 概率最高的日子。

有没有解决此类问题的方法？谢谢你的时间

Answer 1

这里有一个方法：

df.groupby(df.timestamp.dt.date).error.apply(lambda s: s.eq(2).sum() / s.size)

我们按时间戳的日期分组，并对 errors 应用一个函数，该函数采用组中 2 的比率。在此之后，您可以链接 idxmax 以获得错误密度最高的日期，或者链接 nlargest(n) 以获得最高的 n 个。

根据提供的示例数据，这给出：

timestamp
2019-11-10    0.4
Name: error, dtype: float64

(因为只有1天，所以只出现了。)

Periods in time with high density of error (in a data frame)