如何使用 Weka 查找基于 SD 的离群值?
How can Weka be used to find outlier values based on SD?
我想使用 Weka 通过定位与均值相差超过 3 个标准差的属性值来查找异常值。我确定有办法做到这一点。
我已经知道如何使用 InterquartileRange 过滤器搜索离群值——这不是我在这种情况下想要做的。 Weka 为我提供了均值和 SD,因此计算出我的阈值非常容易。我只是不知道要使用什么过滤器,搜索也没有用(我得到了更高级问题的答案)。
如果您自己计算阈值,则可以使用 SubsetByExpression 过滤器丢弃超出这些值的实例(对于特定属性)。
我想使用 Weka 通过定位与均值相差超过 3 个标准差的属性值来查找异常值。我确定有办法做到这一点。
我已经知道如何使用 InterquartileRange 过滤器搜索离群值——这不是我在这种情况下想要做的。 Weka 为我提供了均值和 SD,因此计算出我的阈值非常容易。我只是不知道要使用什么过滤器,搜索也没有用(我得到了更高级问题的答案)。
如果您自己计算阈值,则可以使用 SubsetByExpression 过滤器丢弃超出这些值的实例(对于特定属性)。