删除异常值（+/- 3 std）并替换为 Python/pandas 中的 np.nan

Question

我见过几个接近解决我的问题的解决方案

link1 link2

但到目前为止他们还没有帮助我取得成功。

我相信下面的解决方案是我所需要的，但仍然出现错误（而且我没有 comment/question 上的声誉点）：link

（我收到以下错误，但我不明白在哪里 .copy() 或在执行以下命令时添加“inplace=True” df2=df.groupby('install_site').transform(replace):

SettingWithCopyWarning: 试图在 DataFrame 的切片副本上设置一个值。尝试使用 .loc[row_indexer,col_indexer] = value 而不是

请参阅文档中的注意事项：link

所以，我试图想出我自己的版本，但我总是被卡住。开始了。

我有一个按时间索引的数据框，其中包含站点列（许多不同站点的字符串值）和浮点值。

time_index            site       val

我想浏览 'val' 列，按站点分组，并用 NaN（对于每个组）替换任何异常值（与平均值 +/- 3 个标准差）。

当我使用以下函数时，我无法用我的 True/Falses 向量索引数据框：

def replace_outliers_with_nan(df, stdvs):
    dfnew=pd.DataFrame()
    for i, col in enumerate(df.sites.unique()):
        dftmp = pd.DataFrame(df[df.sites==col])
        idx = [np.abs(dftmp-dftmp.mean())<=(stdvs*dftmp.std())] #boolean vector of T/F's
        dftmp[idx==False]=np.nan  #this is where the problem lies, I believe
        dfnew[col] = dftmp
    return dfnew

此外，我担心上述函数在 700 万+行上会花费很长时间，这就是我希望使用 groupby 函数选项的原因。

Answer 1

如果我没听错，就没有必要遍历列。此解决方案将所有偏离三组标准差以上的值替换为 NaN。

def replace(group, stds):
    group[np.abs(group - group.mean()) > stds * group.std()] = np.nan
    return group

# df is your DataFrame
df.loc[:, df.columns != group_column] = df.groupby(group_column).transform(lambda g: replace(g, 3))

删除异常值（+/- 3 std）并替换为 Python/pandas 中的 np.nan

Remove outliers (+/- 3 std) and replace with np.nan in Python/pandas

python

grouping

outliers