Python | Pandas 在多个时间间隔内删除值

Python | Pandas drop values in multiple intervals

我有一个不太平衡的数据集。因此,我想删除特定范围内的值,这样在每个范围内,我只剩下比预先指定的数字 cutoff.

更少的观察值

为了进一步解释我的意思,我将展示一个示例(b 列中的值是浮点数)

  a b
0 1 0
1 7 0
2 9 5
3 3 9
4 5 6 

我想在 b 列中搜索特定范围,例如ranges = np.array([0, 2, 4, 6, 8, 10]) 给定一个 cutoff = 1(可以是任何指定的整数)。例如,第一行中的值 0 位于区间 [0,2)(不包括 2),第二行也包含来自该区间的值。因为截断等于 1,所以只允许 b 的一个值位于该区间内。因此,第二行被丢弃(如果行不是按顺序而是不确定地丢弃,那就太好了),我们获得了以下简化的数据框。

  a b
0 1 0
2 9 5
3 3 9
4 5 6 

您可以使用 pd.cut 以便根据 rangesb 中的值进行分箱,并删除 duplicated:

中的值
ranges = np.array([0, 2, 4, 6, 8, 10])
df[~(pd.cut(df.b, ranges, include_lowest=True, right=False)).duplicated()]

   a  b
0  1  0
2  9  5
3  3  9
4  5  6

其中:

pd.cut(df.b, ranges, include_lowest=True, right=False)

0     [0, 2)
1     [0, 2)
2     [4, 6)
3    [8, 10)
4     [6, 8)
Name: b, dtype: category

更新

如果您想使用特定的允许重复值截止值,您可以按 pd.cut 和 select 返回的间隔分组,第一个 n 值通过使用[head] 为了 select 前 n 行属于同一区间。

下面的数据框和你的一样,多了一行,所以功能更清晰:

print(df)
   a  b
0  1  0
1  7  0
2  7  0
3  9  5
4  3  9
5  5  6

cuttoff = 2
g = pd.cut(df.b, ranges, include_lowest=True, right=False)
df.groupby(g).head(cuttoff)

   a  b
0  1  0
1  7  0
3  9  5
4  3  9
5  5  6