使用 ELKI MiniGUI 对训练集和测试集进行异常检测
Using ELKI MiniGUI for anomaly detection with training set and test set
我有:
文件 training.arff
仅包含具有正常行为的样本。
一个文件 test.arff
,其中包含具有正常和异常行为的样本。
我想使用 ELKI MiniGUI 使用半监督学习进行异常检测。
我认为通常我应该 build/train 使用 training.arff
的模型,然后将模型应用于 test.arff
。
不管我用什么算法。
我似乎找不到将这两个文件放在 ELKI MiniGUI 中的什么位置,这样我才能得到我想要的结果。 (只有dbc.in
)
*PS: 在尝试使用 weka 一周后我放弃了,但我不限于 ELKI。
谢谢!!
您的场景是监督学习方法。
ELKI 目前仅包含 无监督 异常值检测方法,不使用 "normal only" 训练数据的先验信息。
您可以将训练文件和测试文件合并为一个文件,然后 运行 异常值检测。该领域中大多数已发布的算法都是无监督的。在无监督学习中,没有训练数据集——只有一种数据。
请注意,截至 2014 年,ELKI 中可用的大多数算法都是为数值数据设计的。如果您的数据是分类数据,您将能够使用其中的许多数据,但您将需要实现适合您的数据类型的数据类型和距离函数。有一些可用的非数值数据的解析器和距离(例如文本数据),但这不受 ARFF 解析器支持,目前也没有用于混合数据的距离函数。
我有:
文件
training.arff
仅包含具有正常行为的样本。一个文件
test.arff
,其中包含具有正常和异常行为的样本。
我想使用 ELKI MiniGUI 使用半监督学习进行异常检测。
我认为通常我应该 build/train 使用 training.arff
的模型,然后将模型应用于 test.arff
。
不管我用什么算法。
我似乎找不到将这两个文件放在 ELKI MiniGUI 中的什么位置,这样我才能得到我想要的结果。 (只有dbc.in
)
*PS: 在尝试使用 weka 一周后我放弃了,但我不限于 ELKI。
谢谢!!
您的场景是监督学习方法。
ELKI 目前仅包含 无监督 异常值检测方法,不使用 "normal only" 训练数据的先验信息。
您可以将训练文件和测试文件合并为一个文件,然后 运行 异常值检测。该领域中大多数已发布的算法都是无监督的。在无监督学习中,没有训练数据集——只有一种数据。
请注意,截至 2014 年,ELKI 中可用的大多数算法都是为数值数据设计的。如果您的数据是分类数据,您将能够使用其中的许多数据,但您将需要实现适合您的数据类型的数据类型和距离函数。有一些可用的非数值数据的解析器和距离(例如文本数据),但这不受 ARFF 解析器支持,目前也没有用于混合数据的距离函数。