pandas.DataFrame 中的 groupby 操作没有异常值

groupby operation in pandas.DataFrame without outliers

对于 pandas.Series,我知道如何去除异常值。像这样:

x = pd.Series(np.random.normal(size=1000))
iqr = x.quantile(.75) - x.quantile(.25)
y = x[x.between(x.quantile(.25) - 1.5*iqr, x.quantile(.75) + 1.5*iqr)]

我想对 DataFrame

的不同 Series/columns 进行处理
import string
import random

df = pd.DataFrame([])
df['A'] = pd.Series(np.random.normal(size=1000))
df['B'] = pd.Series(np.random.normal(size=1000, loc=-5, scale=1))
df['C'] = pd.Series(np.random.normal(size=1000, loc=10, scale=2))
df['index'] = pd.Series([random.choice(string.ascii_uppercase) for i in range(1000)])

df.set_index('index')

我经常做

df = df.groupby('index').mean()

但是,在这种情况下,它还会平均异常值,我想在平均时忽略这些异常值。

请注意,随机数据比异常值在每一列中的位置不同。因此,仅应忽略 column/Series

中的异常值

结果应该是一个 DataFrame,有 26 行(一行代表 index 的每个字母)和 3 列,取平均值,没有异常值

我可以遍历 df 的列并执行第一个代码块。但是有更好的方法吗?

欢迎提出建议。接受任何方法

使用以下代码。

def mean_without_outlier(x): # x: series
    iqr = x.quantile(.75) - x.quantile(.25)
    y = x[x.between(x.quantile(.25) - 1.5*iqr, x.quantile(.75) + 1.5*iqr)]
    return y.mean()

df.groupby("index")[['A', 'B', 'C']].agg(mean_without_outlier)