使用高斯混合进行异常值检测
Outlier detection using Gaussian mixture
我的 17 个特征中的每一个在一个 5000 x 17 的 numpy 数组中有 5000 个数据点。我正在尝试使用高斯混合找到每个特征的离群值,但我对以下内容相当困惑:1)我应该为我的 GaussiasnMixture 使用多少个组件? 2) 我应该将 GaussianMixture 直接放在 5000 x 17 的阵列上还是分别放在每个特征列上,从而产生 17 个 GaussianMixture 模型?
clf = mixture.GaussianMixture(n_components=1, covariance_type='full')
clf.fit(full_feature_array)
或
clf = mixture.GaussianMixture(n_components=17, covariance_type='full')
clf.fit(full_feature_array)
或
for feature in range(0, full_feature_matrix):
clf[feature] = mixture.GaussianMixture(n_components=1, covariance_type='full')
clf.fit(full_feature_array[:,feature)
选择组件数量以使用高斯混合模型对分布建模的任务是模型选择的一个实例。这不是那么简单,存在许多方法。可以在此处 https://en.m.wikipedia.org/wiki/Model_selection 找到一个很好的总结。最简单和最广泛使用的方法之一是执行交叉验证。
通常可以将异常值确定为属于具有最大方差的一个或多个组件的异常值。您可以将此策略称为无监督方法,但仍然很难确定截止方差应该是多少。更好的方法(如果适用)是一种监督方法,您可以使用无异常值的数据(通过手动删除异常值)来训练 GMM。然后,您可以使用它来 class 将异常值确定为可能性得分特别低的异常值。使用监督方法进行此操作的第二种方法是训练两个 GMM(一个用于异常值,一个用于使用模型选择的异常值),然后对新数据执行两次 class class 化。关于你关于训练单变量与多变量 GMM 的问题 - 很难说,但为了异常值检测的目的,单变量 GMM(或等效的具有对角协方差矩阵的多变量 GMM)可能就足够了,并且与一般多变量 GMM 相比需要训练更少的参数,所以我会从那开始。
使用高斯混合模型 (GMM),位于低密度区域的任何点都可以被视为离群点 - 也许挑战在于如何定义低密度区域 - 例如,您可以说任何低于第 4 分位数密度的点都是离群点。
densities = gm.score_samples(X)
density_threshold = np.percentile(densities, 4)
anomalies = X[densities < density_threshold]
关于选择组件数量 - 查看 AIC 或 BIC 提供的“信息标准”,给出不同数量的组件 - 他们通常在这种情况下达成一致。最低的更好。
gm.bic(x)
gm.aic(x)
或者,BayesianGaussianMixture
将零作为不需要的集群的权重。
from sklearn.mixture import BayesianGaussianMixture
bgm = BayesianGaussianMixture(n_components=8, n_init=10) # n_components should be large enough
bgm.fit(X)
np.round(bgm.weights_, 2)
产出
array([0.5 , 0.3, 0.2 , 0. , 0. , 0. , 0. , 0. ])
这里贝叶斯 gmm 检测到有 3 个簇。
我的 17 个特征中的每一个在一个 5000 x 17 的 numpy 数组中有 5000 个数据点。我正在尝试使用高斯混合找到每个特征的离群值,但我对以下内容相当困惑:1)我应该为我的 GaussiasnMixture 使用多少个组件? 2) 我应该将 GaussianMixture 直接放在 5000 x 17 的阵列上还是分别放在每个特征列上,从而产生 17 个 GaussianMixture 模型?
clf = mixture.GaussianMixture(n_components=1, covariance_type='full')
clf.fit(full_feature_array)
或
clf = mixture.GaussianMixture(n_components=17, covariance_type='full')
clf.fit(full_feature_array)
或
for feature in range(0, full_feature_matrix):
clf[feature] = mixture.GaussianMixture(n_components=1, covariance_type='full')
clf.fit(full_feature_array[:,feature)
选择组件数量以使用高斯混合模型对分布建模的任务是模型选择的一个实例。这不是那么简单,存在许多方法。可以在此处 https://en.m.wikipedia.org/wiki/Model_selection 找到一个很好的总结。最简单和最广泛使用的方法之一是执行交叉验证。
通常可以将异常值确定为属于具有最大方差的一个或多个组件的异常值。您可以将此策略称为无监督方法,但仍然很难确定截止方差应该是多少。更好的方法(如果适用)是一种监督方法,您可以使用无异常值的数据(通过手动删除异常值)来训练 GMM。然后,您可以使用它来 class 将异常值确定为可能性得分特别低的异常值。使用监督方法进行此操作的第二种方法是训练两个 GMM(一个用于异常值,一个用于使用模型选择的异常值),然后对新数据执行两次 class class 化。关于你关于训练单变量与多变量 GMM 的问题 - 很难说,但为了异常值检测的目的,单变量 GMM(或等效的具有对角协方差矩阵的多变量 GMM)可能就足够了,并且与一般多变量 GMM 相比需要训练更少的参数,所以我会从那开始。
使用高斯混合模型 (GMM),位于低密度区域的任何点都可以被视为离群点 - 也许挑战在于如何定义低密度区域 - 例如,您可以说任何低于第 4 分位数密度的点都是离群点。
densities = gm.score_samples(X)
density_threshold = np.percentile(densities, 4)
anomalies = X[densities < density_threshold]
关于选择组件数量 - 查看 AIC 或 BIC 提供的“信息标准”,给出不同数量的组件 - 他们通常在这种情况下达成一致。最低的更好。
gm.bic(x)
gm.aic(x)
或者,BayesianGaussianMixture
将零作为不需要的集群的权重。
from sklearn.mixture import BayesianGaussianMixture
bgm = BayesianGaussianMixture(n_components=8, n_init=10) # n_components should be large enough
bgm.fit(X)
np.round(bgm.weights_, 2)
产出
array([0.5 , 0.3, 0.2 , 0. , 0. , 0. , 0. , 0. ])
这里贝叶斯 gmm 检测到有 3 个簇。