错误密度高的时间段(在数据帧中)
Periods in time with high density of error (in a data frame)
我有一个包含时间戳列和错误列的数据框,错误列有 6 种类型的值(NaN、D、E、F、G、H),我需要及时提取时间段错误 E 的密度很高,我不知道如何解决这个问题。
我的方法是创建一个直方图,然后我可以计算每个错误的概率密度,然后我会迭代所有的日子,select 那些 E 概率最高的日子。
有没有解决此类问题的方法?谢谢你的时间
这里有一个方法:
df.groupby(df.timestamp.dt.date).error.apply(lambda s: s.eq(2).sum() / s.size)
我们按时间戳的日期分组,并对 error
s 应用一个函数,该函数采用组中 2 的比率。在此之后,您可以链接 idxmax
以获得错误密度最高的日期,或者链接 nlargest(n)
以获得最高的 n 个。
根据提供的示例数据,这给出:
timestamp
2019-11-10 0.4
Name: error, dtype: float64
(因为只有1天,所以只出现了。)
我有一个包含时间戳列和错误列的数据框,错误列有 6 种类型的值(NaN、D、E、F、G、H),我需要及时提取时间段错误 E 的密度很高,我不知道如何解决这个问题。
我的方法是创建一个直方图,然后我可以计算每个错误的概率密度,然后我会迭代所有的日子,select 那些 E 概率最高的日子。
有没有解决此类问题的方法?谢谢你的时间
这里有一个方法:
df.groupby(df.timestamp.dt.date).error.apply(lambda s: s.eq(2).sum() / s.size)
我们按时间戳的日期分组,并对 error
s 应用一个函数,该函数采用组中 2 的比率。在此之后,您可以链接 idxmax
以获得错误密度最高的日期,或者链接 nlargest(n)
以获得最高的 n 个。
根据提供的示例数据,这给出:
timestamp
2019-11-10 0.4
Name: error, dtype: float64
(因为只有1天,所以只出现了。)