如何检测二维数组中的异常值检测?
How to detect outlier detection in two dimensional arrays?
给定一个数组:
[
{ final_amount: 20.0, shipping_amount: 5 },
{ final_amount: 30.0, shipping_amount: 5.5 },
{ final_amount: 25.0, shipping_amount: 105.5 },
{ final_amount: 325.0, shipping_amount: 125.5 }
]
我怎么能检测到
{ final_amount: 25.0, shipping_amount: 105.5 }
是异常值吗?
更大 final_amount 意味着更大 shipping_amount,但是我们的数据集中有一些错误条目。
如果我只考虑 shipping_amount(中位数和标准差),它会删除一些有效条目,因为它没有考虑 final_amount。
解决此类问题的正确方法是拥有一个 "normal" 数据模型和一个或多个 "abnormal" 数据模型。其中每一个都是某个类别的 p(data|category)。应用贝叶斯规则计算 p(category|data) 并在类别中做出一些选择,例如选择具有最大 p(类别|数据)的类别。这是一个漂亮的 wide-open 领域,祝你好运,玩得开心。此外,您可能会对 stats.stackexchange.com 更感兴趣。
给定一个数组:
[
{ final_amount: 20.0, shipping_amount: 5 },
{ final_amount: 30.0, shipping_amount: 5.5 },
{ final_amount: 25.0, shipping_amount: 105.5 },
{ final_amount: 325.0, shipping_amount: 125.5 }
]
我怎么能检测到
{ final_amount: 25.0, shipping_amount: 105.5 }
是异常值吗?
更大 final_amount 意味着更大 shipping_amount,但是我们的数据集中有一些错误条目。
如果我只考虑 shipping_amount(中位数和标准差),它会删除一些有效条目,因为它没有考虑 final_amount。
解决此类问题的正确方法是拥有一个 "normal" 数据模型和一个或多个 "abnormal" 数据模型。其中每一个都是某个类别的 p(data|category)。应用贝叶斯规则计算 p(category|data) 并在类别中做出一些选择,例如选择具有最大 p(类别|数据)的类别。这是一个漂亮的 wide-open 领域,祝你好运,玩得开心。此外,您可能会对 stats.stackexchange.com 更感兴趣。