一个 class SVM 总是 returns FALSE
One class SVM always returns FALSE
我的 ML 课程中有一个关于 anomaly/novelty 检测的项目,因此决定研究本文所述的 One-class SVM 算法:http://research.microsoft.com/pubs/69731/tr-99-87.pdf。在 R 中的 e1071
包中,有一个 svm
函数似乎支持 one-class classification。然而,当我尝试使用它时,预测器总是 returns false(即使在训练集上,这是最奇怪的事情)。这是我的代码:
library(e1071) # for svm classifier
library(IMIFA) # for USPS dataset
library(caret) # for confusion matrices
data(USPSdigits)
digits.train <- USPSdigits$train
digits.train <- digits.train[order(digits.train$V1), ]
digits.train$is.zero[digits.train$V1 == 0] <- "TRUE"
digits.train$is.zero[digits.train$V1 != 0] <- "FALSE"
digits.test <- USPSdigits$test
digits.test <- digits.test[order(digits.test$V1), ]
digits.test$is.zero[digits.test$V1 == 0] <- "TRUE"
digits.test$is.zero[digits.test$V1 != 0] <- "FALSE"
digits.train.features <- digits.train[digits.train$V1 == 0, -c(1, 258)]
digits.train.labels <- digits.train[digits.train$V1 == 0, 258]
digits.train.nu <- 0.5
digits.train.bandwith <- 0.5*256
digits.train.model <- svm(x = digits.train.features, type = 'one-classification', kernel = 'radial', nu = digits.train.nu, gamma = digits.train.bandwith)
digits.train.fitted <- predict(digits.train.model, digits.train.features)
digits.train.confusionMatrix <- table(Predicted = digits.train.fitted, Reference = digits.train.labels)
print(digits.train.confusionMatrix)
digits.test.features <- subset(digits.test, select = -c(is.zero, V1))
digits.test.labels <- digits.test$is.zero
digits.test.fitted <- predict(digits.train.model, digits.test.features)
digits.test.confusionMatrix <- table(Predicted = digits.test.fitted, Reference = digits.test.labels)
print(digits.test.confusionMatrix)
我的输出是:
> print(digits.train.confusionMatrix)
Reference
Predicted TRUE
FALSE 1194
> print(digits.test.confusionMatrix)
Reference
Predicted FALSE TRUE
FALSE 1648 359
我做错了什么?
我创建了一个工作示例。调整您自己的命名约定。我使用了一个非常有表现力的命名约定来准确地展示我所做的。
仅对 1 个数字进行训练会导致很多列具有相同的值。这些 return 作为 svm
中的错误,应该被删除。来自 caret 的函数 nearZeroVar
是一个理想的函数。如果你曾经使用过 recipes 包,它被称为 step_nzv
。
library(e1071)
# library(caret) # caret used for nearZeroVar function.
# data steps like OP's
digits.train <- USPSdigits$train
digits.test <- USPSdigits$test
digits.train$is.zero[digits.train$V1 == 0] <- "TRUE"
digits.train$is.zero[digits.train$V1 != 0] <- "FALSE"
digits.test$is.zero[digits.test$V1 == 0] <- "TRUE"
digits.test$is.zero[digits.test$V1 != 0] <- "FALSE"
train_the_positives <- subset(digits.train, is.zero == "TRUE")
# get the columns with 99% of the same values
cols_to_remove <- caret::nearZeroVar(train_the_positives, freqCut = 99/1)
svm.model <- svm(train_the_positives[, -cols_to_remove],
type = 'one-classification',
nu = 0.10,
kernel = "radial")
# predictions on train_the_positives set
svm_predictions_on_train_the_positives <- predict(svm.model, train_the_positives[, -cols_to_remove])
table(Predicted = svm_predictions_on_train_the_positives,
Reference = train_the_positives$is.zero)
Reference
Predicted TRUE
FALSE 121
TRUE 1073
# predictions on full train set
svm_prediction_on_full_train_set <- predict(svm.model, digits.train[, -cols_to_remove])
table(Predicted = svm_prediction_on_full_train_set,
Reference = digits.train$is.zero)
Reference
Predicted FALSE TRUE
FALSE 6069 121
TRUE 28 1073
# predictions on test set
svm_prediction_on_test_set <- predict(svm.model, digits.test[, -cols_to_remove])
table(Predicted = svm_prediction_on_test_set,
Reference = digits.test$is.zero)
Reference
Predicted FALSE TRUE
FALSE 1638 68
TRUE 10 291
我的 ML 课程中有一个关于 anomaly/novelty 检测的项目,因此决定研究本文所述的 One-class SVM 算法:http://research.microsoft.com/pubs/69731/tr-99-87.pdf。在 R 中的 e1071
包中,有一个 svm
函数似乎支持 one-class classification。然而,当我尝试使用它时,预测器总是 returns false(即使在训练集上,这是最奇怪的事情)。这是我的代码:
library(e1071) # for svm classifier
library(IMIFA) # for USPS dataset
library(caret) # for confusion matrices
data(USPSdigits)
digits.train <- USPSdigits$train
digits.train <- digits.train[order(digits.train$V1), ]
digits.train$is.zero[digits.train$V1 == 0] <- "TRUE"
digits.train$is.zero[digits.train$V1 != 0] <- "FALSE"
digits.test <- USPSdigits$test
digits.test <- digits.test[order(digits.test$V1), ]
digits.test$is.zero[digits.test$V1 == 0] <- "TRUE"
digits.test$is.zero[digits.test$V1 != 0] <- "FALSE"
digits.train.features <- digits.train[digits.train$V1 == 0, -c(1, 258)]
digits.train.labels <- digits.train[digits.train$V1 == 0, 258]
digits.train.nu <- 0.5
digits.train.bandwith <- 0.5*256
digits.train.model <- svm(x = digits.train.features, type = 'one-classification', kernel = 'radial', nu = digits.train.nu, gamma = digits.train.bandwith)
digits.train.fitted <- predict(digits.train.model, digits.train.features)
digits.train.confusionMatrix <- table(Predicted = digits.train.fitted, Reference = digits.train.labels)
print(digits.train.confusionMatrix)
digits.test.features <- subset(digits.test, select = -c(is.zero, V1))
digits.test.labels <- digits.test$is.zero
digits.test.fitted <- predict(digits.train.model, digits.test.features)
digits.test.confusionMatrix <- table(Predicted = digits.test.fitted, Reference = digits.test.labels)
print(digits.test.confusionMatrix)
我的输出是:
> print(digits.train.confusionMatrix)
Reference
Predicted TRUE
FALSE 1194
> print(digits.test.confusionMatrix)
Reference
Predicted FALSE TRUE
FALSE 1648 359
我做错了什么?
我创建了一个工作示例。调整您自己的命名约定。我使用了一个非常有表现力的命名约定来准确地展示我所做的。
仅对 1 个数字进行训练会导致很多列具有相同的值。这些 return 作为 svm
中的错误,应该被删除。来自 caret 的函数 nearZeroVar
是一个理想的函数。如果你曾经使用过 recipes 包,它被称为 step_nzv
。
library(e1071)
# library(caret) # caret used for nearZeroVar function.
# data steps like OP's
digits.train <- USPSdigits$train
digits.test <- USPSdigits$test
digits.train$is.zero[digits.train$V1 == 0] <- "TRUE"
digits.train$is.zero[digits.train$V1 != 0] <- "FALSE"
digits.test$is.zero[digits.test$V1 == 0] <- "TRUE"
digits.test$is.zero[digits.test$V1 != 0] <- "FALSE"
train_the_positives <- subset(digits.train, is.zero == "TRUE")
# get the columns with 99% of the same values
cols_to_remove <- caret::nearZeroVar(train_the_positives, freqCut = 99/1)
svm.model <- svm(train_the_positives[, -cols_to_remove],
type = 'one-classification',
nu = 0.10,
kernel = "radial")
# predictions on train_the_positives set
svm_predictions_on_train_the_positives <- predict(svm.model, train_the_positives[, -cols_to_remove])
table(Predicted = svm_predictions_on_train_the_positives,
Reference = train_the_positives$is.zero)
Reference
Predicted TRUE
FALSE 121
TRUE 1073
# predictions on full train set
svm_prediction_on_full_train_set <- predict(svm.model, digits.train[, -cols_to_remove])
table(Predicted = svm_prediction_on_full_train_set,
Reference = digits.train$is.zero)
Reference
Predicted FALSE TRUE
FALSE 6069 121
TRUE 28 1073
# predictions on test set
svm_prediction_on_test_set <- predict(svm.model, digits.test[, -cols_to_remove])
table(Predicted = svm_prediction_on_test_set,
Reference = digits.test$is.zero)
Reference
Predicted FALSE TRUE
FALSE 1638 68
TRUE 10 291