从 pandas 中移除不同类型的异常值

Question

目前正在处理回归问题，我在模型性能方面遇到了一些问题。为了 'maybe' 获得更好的性能，我想删除一些异常值。

问题：从包含不同类型的数据框中删除异常值。

DF 看起来像：

   df.dtypes
CONTRACT_TYPE                           object
CONTRACT_COC                            object
ORIGINATION_DATE                datetime64[ns]
MATURITY_DATE                   datetime64[ns]
ORIGINAL_TERM                          float64
REMAINING_TERM                           int64
INTEREST_RATE_INTERNAL                 float64
INTEREST_RATE_FUNDING                  float64

然而，在尝试如下所示的代码后，没有成功，甚至没有 zscore，我正在寻求帮助。

# Computing IQR
Q1 = df.quantile(0.25)
Q3 = df.quantile(0.75)
IQR = Q3 - Q1

df_out = df[~((df < (Q1 - 1.5 * IQR)) |(df > (Q3 + 1.5 * IQR))).any(axis=1)]

总而言之，我希望在图表（散点图、箱线图）中看到更多 'normal' 分布，没有或有更少的异常值。

如果您需要更多信息，请不要犹豫。

Answer 1

首先，我假设你的数据分布是正常的。这是删除异常值的好策略。

制作一个 Pandas 具有所有数值特征的数据框，其中有异常值。

在您的 Dataframe 上使用 sklearn.preprocessing.StandardScaler。它通过去除均值和缩放到单位方差来标准化特征。实现很简单，如下；

# Declare Sklearn standard_scaler
standard_scaler = StandardScaler(copy=True, with_mean=True, with_std=True)        

# Fitting
standard_scaler.fit(x_train_df)        

# Transforming
x_train_normal_scaled_df = standard_scaler.transform(x_train_df)        

# Fitting and Transforming together 
x_train_normal_scaled_df = x_scaler_lev1.fit_transform(x_train_df)        

# Inverting the transformed data back.
x_train_df = standard_scaler.inverse_transform()

print(x_train_normal_scaled_df.describe())
x_train_normal_scaled_df.plot()

您应该找出您的数据中有多少是异常值。 Empirical Rule of Normal Distribution 可以在这里提供帮助。

在实验上，我总是选择3倍标准差范围内的数据作为我的主要数据，超出这个范围的就是离群值。正态分布可以保证主要数据有大约99.73%的信息。

从 pandas 中移除不同类型的异常值

Remove outliers from pandas with different types

numeric

outliers

pandas

categorical-data

jupyter-notebook