使用 mvoutlier 删除多元异常值
Removing Multivariate Outliers With mvoutlier
问题
我有一个随时由 > 5 个变量组成的数据框,我正在尝试对其进行 K 均值计算。因为 K-Means 受离群值的影响很大,所以我花了几个小时试图寻找如何计算和删除多元离群值。演示的大多数示例都带有 2 个变量。
探索可能的解决方案
mvoutlier - 友善的用户注意到 mvoutlier 可能是我需要的。
Another Outlier Detection Method - 此处的发帖人评论了 R 函数的混合,以生成异常值的有序列表。
到目前为止的问题
关于 mvoutlier,我无法生成结果,因为它指出我的数据集包含负数,因此无法工作。我不确定如何将我的数据更改为仅正数,因为我需要 我正在使用的组中的底片。
关于另一种离群值检测方法我能够想出一个离群值列表,但不确定如何将它们从当前数据集中排除。此外,我确实知道这些计算是在 K-Means 之后完成的,因此我可能会在执行 K-Means 之前应用数学。
最小可验证示例
不幸的是,我使用的数据集是禁止向任何人展示的,因此您需要的是任何包含 3 个以上变量的随机数据集。下面的代码是从 另一种异常值检测方法 post 转换而来的代码,用于处理我的数据。如果您也有随机数据集,它应该动态工作。但它应该有足够的数据,其中聚类中心数量应该可以为 5。
clusterAmount <- 5
cluster <- kmeans(dataFrame, centers = clusterAmount, nstart = 20)
centers <- cluster$centers[cluster$cluster, ]
distances <- sqrt(rowSums(clusterDataFrame - centers)^2)
m <- tapply(distances, cluster$cluster, mean)
d <- distances/(m[cluster$cluster])
# 1% outliers
outliers <- d[order(d, decreasing = TRUE)][1:(nrow(clusterDataFrame) * .01)]
输出: 我认为是按照距离他们居住的中心的距离排序的异常值列表。接下来的问题是将这些结果与数据框中的相应行配对并删除它们,以便我可以开始我的 K-Means 过程。 (请注意,虽然在示例中我在移除异常值之前使用了 K-Means,但我将确保在求解时采取必要的步骤并在 K-Means 之前移除异常值)。
问题
使用另一种离群值检测方法示例,我如何将结果与当前数据框中的信息配对以在执行 K-Means 之前排除那些行?
我不知道这是否有帮助,但如果您的数据是多元正态数据,您可能想尝试基于 Wilks (1963) 的方法。 Wilks 表明多元正态数据的马氏距离服从 Beta 分布。我们可以利用这一点(以鸢尾萼片数据为例):
test.dat <- iris[,-c(1,2))]
Wilks.function <- function(dat){
n <- nrow(dat)
p <- ncol(dat)
# beta distribution
u <- n * mahalanobis(dat, center = colMeans(dat), cov = cov(dat))/(n-1)^2
w <- 1 - u
F.stat <- ((n-p-1)/p) * (1/w-1) # computing F statistic
p <- 1 - round( pf(F.stat, p, n-p-1), 3) # p value for each row
cbind(w, F.stat, p)
}
plot(test.dat,
col = "blue",
pch = c(15,16,17)[as.numeric(iris$Species)])
dat.rows <- Wilks.function(test.dat); head(dat.rows)
# w F.stat p
#[1,] 0.9888813 0.8264127 0.440
#[2,] 0.9907488 0.6863139 0.505
#[3,] 0.9869330 0.9731436 0.380
#[4,] 0.9847254 1.1400985 0.323
#[5,] 0.9843166 1.1710961 0.313
#[6,] 0.9740961 1.9545687 0.145
然后我们可以简单地找到我们的多变量数据的哪些行与 beta 分布有显着差异。
outliers <- which(dat.rows[,"p"] < 0.05)
points(test.dat[outliers,],
col = "red",
pch = c(15,16,17)[as.numeric(iris$Species[outliers])])
问题
我有一个随时由 > 5 个变量组成的数据框,我正在尝试对其进行 K 均值计算。因为 K-Means 受离群值的影响很大,所以我花了几个小时试图寻找如何计算和删除多元离群值。演示的大多数示例都带有 2 个变量。
探索可能的解决方案
mvoutlier - 友善的用户注意到 mvoutlier 可能是我需要的。
Another Outlier Detection Method - 此处的发帖人评论了 R 函数的混合,以生成异常值的有序列表。
到目前为止的问题
关于 mvoutlier,我无法生成结果,因为它指出我的数据集包含负数,因此无法工作。我不确定如何将我的数据更改为仅正数,因为我需要 我正在使用的组中的底片。
关于另一种离群值检测方法我能够想出一个离群值列表,但不确定如何将它们从当前数据集中排除。此外,我确实知道这些计算是在 K-Means 之后完成的,因此我可能会在执行 K-Means 之前应用数学。
最小可验证示例
不幸的是,我使用的数据集是禁止向任何人展示的,因此您需要的是任何包含 3 个以上变量的随机数据集。下面的代码是从 另一种异常值检测方法 post 转换而来的代码,用于处理我的数据。如果您也有随机数据集,它应该动态工作。但它应该有足够的数据,其中聚类中心数量应该可以为 5。
clusterAmount <- 5
cluster <- kmeans(dataFrame, centers = clusterAmount, nstart = 20)
centers <- cluster$centers[cluster$cluster, ]
distances <- sqrt(rowSums(clusterDataFrame - centers)^2)
m <- tapply(distances, cluster$cluster, mean)
d <- distances/(m[cluster$cluster])
# 1% outliers
outliers <- d[order(d, decreasing = TRUE)][1:(nrow(clusterDataFrame) * .01)]
输出: 我认为是按照距离他们居住的中心的距离排序的异常值列表。接下来的问题是将这些结果与数据框中的相应行配对并删除它们,以便我可以开始我的 K-Means 过程。 (请注意,虽然在示例中我在移除异常值之前使用了 K-Means,但我将确保在求解时采取必要的步骤并在 K-Means 之前移除异常值)。
问题
使用另一种离群值检测方法示例,我如何将结果与当前数据框中的信息配对以在执行 K-Means 之前排除那些行?
我不知道这是否有帮助,但如果您的数据是多元正态数据,您可能想尝试基于 Wilks (1963) 的方法。 Wilks 表明多元正态数据的马氏距离服从 Beta 分布。我们可以利用这一点(以鸢尾萼片数据为例):
test.dat <- iris[,-c(1,2))]
Wilks.function <- function(dat){
n <- nrow(dat)
p <- ncol(dat)
# beta distribution
u <- n * mahalanobis(dat, center = colMeans(dat), cov = cov(dat))/(n-1)^2
w <- 1 - u
F.stat <- ((n-p-1)/p) * (1/w-1) # computing F statistic
p <- 1 - round( pf(F.stat, p, n-p-1), 3) # p value for each row
cbind(w, F.stat, p)
}
plot(test.dat,
col = "blue",
pch = c(15,16,17)[as.numeric(iris$Species)])
dat.rows <- Wilks.function(test.dat); head(dat.rows)
# w F.stat p
#[1,] 0.9888813 0.8264127 0.440
#[2,] 0.9907488 0.6863139 0.505
#[3,] 0.9869330 0.9731436 0.380
#[4,] 0.9847254 1.1400985 0.323
#[5,] 0.9843166 1.1710961 0.313
#[6,] 0.9740961 1.9545687 0.145
然后我们可以简单地找到我们的多变量数据的哪些行与 beta 分布有显着差异。
outliers <- which(dat.rows[,"p"] < 0.05)
points(test.dat[outliers,],
col = "red",
pch = c(15,16,17)[as.numeric(iris$Species[outliers])])