离群值检测的验证是什么?
What validation for outlier detection?
另一个关于数据科学的一般问题!
假设我有一堆样本,我必须检测每个样本的异常值。我的数据是单变量的,所以我可以使用简单的方法,如标准偏差或中值绝对偏差。
现在我的问题是:如何进行任何类型的验证以查看结果是否连贯,尤其是如果由于数据量大而无法通过肉眼查看结果时?例如,选择使用多少标准差来定义离群值。到目前为止,我还没有看到任何定量方法。它甚至存在吗?
干杯
有趣的是,您没有定义 "size of the data" 的维度。我认为这很重要。例如,您可以为 high-dimensional 数据绘制 q-q 图,但对于许多 data-points.
数据来说并不那么容易
但是,在寻找通用方法时,我会从概率的角度来解决这个问题。这永远不会告诉您哪个数据点是异常值,但是,它会告诉您(在数据的某些区域)存在异常值的概率是多少。
我必须做出两个假设 (a) 您知道您的数据源自的分布族,例如正态或泊松 (b) 您可以在给定数据集的情况下估计该族的参数。
现在您可以定义数据来自此分布的假设和数据不来自此分布的备择假设 (H0)。如果您从估计的分布中抽取随机样本,则此抽取的分布平均而言应该与您观察到的样本一样可能来自该分布。如果不是这样
然而,可能更有趣的是找到包含离群值的 sub-space。这可以通过以下经验程序来完成。如果您现在估计数据给定的分布参数。您可以将估计的分布与所见数据的直方图进行比较。这为直方图的每个 bin 提供了 ic 包含离群值的概率。对于高维数据,这可以通过编程方式进行检查。
另一个关于数据科学的一般问题! 假设我有一堆样本,我必须检测每个样本的异常值。我的数据是单变量的,所以我可以使用简单的方法,如标准偏差或中值绝对偏差。
现在我的问题是:如何进行任何类型的验证以查看结果是否连贯,尤其是如果由于数据量大而无法通过肉眼查看结果时?例如,选择使用多少标准差来定义离群值。到目前为止,我还没有看到任何定量方法。它甚至存在吗?
干杯
有趣的是,您没有定义 "size of the data" 的维度。我认为这很重要。例如,您可以为 high-dimensional 数据绘制 q-q 图,但对于许多 data-points.
数据来说并不那么容易但是,在寻找通用方法时,我会从概率的角度来解决这个问题。这永远不会告诉您哪个数据点是异常值,但是,它会告诉您(在数据的某些区域)存在异常值的概率是多少。 我必须做出两个假设 (a) 您知道您的数据源自的分布族,例如正态或泊松 (b) 您可以在给定数据集的情况下估计该族的参数。
现在您可以定义数据来自此分布的假设和数据不来自此分布的备择假设 (H0)。如果您从估计的分布中抽取随机样本,则此抽取的分布平均而言应该与您观察到的样本一样可能来自该分布。如果不是这样
然而,可能更有趣的是找到包含离群值的 sub-space。这可以通过以下经验程序来完成。如果您现在估计数据给定的分布参数。您可以将估计的分布与所见数据的直方图进行比较。这为直方图的每个 bin 提供了 ic 包含离群值的概率。对于高维数据,这可以通过编程方式进行检查。