ELKI,DBOutlierDetection 算法:d 是什么度量?
ELKI, the DBOutlierDetection algorithm: What measure is d?
你能告诉我参数d在DBOutlierDetection算法(或DBOutlierScore)中是哪个度量吗?厘米?毫米?
我必须以某种方式比较参数 d 下的面积与 LOF 的 k。
这取决于您使用-algorithm.distancefunction
设置的距离度量。
参数为距离;距离的语义含义取决于您的数据和距离函数。
例如,如果您的数据是纬度、经度对
- 欧几里得距离以度为单位,由于畸变,在两极附近是一个相当无意义的值(北极的 1 度几乎没什么,但它是沿赤道的相当大的距离)
- ELKI 中的大地距离使用米。这更容易参数化。
类似的,如果你使用的是欧氏距离,那么你的
- 数据以米为单位,则欧式距离以米为单位
- 数据以毫米为单位,则欧式距离以毫米为单位
- 数据是鞋号、重量、身高和电压,那么用欧几里得距离意义不大,因为你是在测量苹果和橘子。
您可以标准化或标准化数据。例如,如果您按均值和标准差进行归一化,则度量单位会消失。对此类数据使用欧几里得距离,则单位为"standard deviations"。但是该单位在多峰分布上也不再有多大意义,因为它在离群值检测和聚类中很常见。
你能告诉我参数d在DBOutlierDetection算法(或DBOutlierScore)中是哪个度量吗?厘米?毫米?
我必须以某种方式比较参数 d 下的面积与 LOF 的 k。
这取决于您使用-algorithm.distancefunction
设置的距离度量。
参数为距离;距离的语义含义取决于您的数据和距离函数。
例如,如果您的数据是纬度、经度对
- 欧几里得距离以度为单位,由于畸变,在两极附近是一个相当无意义的值(北极的 1 度几乎没什么,但它是沿赤道的相当大的距离)
- ELKI 中的大地距离使用米。这更容易参数化。
类似的,如果你使用的是欧氏距离,那么你的
- 数据以米为单位,则欧式距离以米为单位
- 数据以毫米为单位,则欧式距离以毫米为单位
- 数据是鞋号、重量、身高和电压,那么用欧几里得距离意义不大,因为你是在测量苹果和橘子。
您可以标准化或标准化数据。例如,如果您按均值和标准差进行归一化,则度量单位会消失。对此类数据使用欧几里得距离,则单位为"standard deviations"。但是该单位在多峰分布上也不再有多大意义,因为它在离群值检测和聚类中很常见。