Sklearn 一个 Class SVM

Question

我正在尝试在 Sklearn 中使用 OneClassSVM 进行离群值检测。用户每天都在访问网站，但有一天他访问了一个以前从未访问过的网站。我想使用 OneClassSVM 捕捉这个异常值。以下是示例数据：

`([[www.makeuseof.com,
www.kickstater.com,
www.google.com,
www.mashable.com`

下面是样本测试数据

`test_data = ['www.makeuseof.com','www.google.com','www.abc.com',]`

我正在使用 python 内置的哈希库对所有字符串进行哈希处理。 abs(hash('string'))

我希望所有人都能 return -1 www.abc.com but its-1`。

Answer 1

也可能存在一些实现错误，但总的来说，我认为散列会导致您的数据过于分散，因此在这种情况下，基本散列不会让您准确预测异常值，因为一切都到目前为止远离其他一切，好吧，一切都会有点异常。

对于你的任务，我不知道你为什么需要机器学习。使用存储访问过的网站的字典，当你得到一个新网站时，检查它是否在字典中。快速、高效、简单。

Answer 2

这里有一个简短的解释为什么你不应该使用机器学习方法：

这不是机器学习任务。本质上，机器学习用于从嘈杂的数据中学习未知模式。这是 non-deterministic 个过程。这种模式的一个例子是

"If a client is unemployed, under 25 years old and does not have high school diploma, his risk for credit loan default increases by 30% compared to all male clients."

在你的情况下，模式是已知的，可以描述为

"User visits a page that he never visited before".

这是一个确定性模式，因此您不应在此处使用机器学习方法。

Sklearn 一个 Class SVM

Sklearn One Class SVM

machine-learning

svm

scikit-learn