KNN 算法中需要归一化
Need of normalization in KNN algorithm
为什么 KNN 中需要归一化?我知道这个过程归一化了所有特征对结果的影响,但是 'K' 在归一化之前最接近特定点 V 的点将与 'K' 归一化后最接近该特定点 V 的点 。那么归一化对欧氏距离有何影响。毕竟 KNN 完全取决于欧几里得距离?
提前致谢!
大多数归一化技术都会改变 'K' 最近邻,如果你在不同的维度上有不同的可变性。
想象一下 A=(-5,0)、B=(-5,1) 和 C=(5,1) 的数据集。现在考虑一个兴趣点 (4.5, 0)。很明显,C是最近的邻居。
在两个维度上最小-最大归一化为 (-1,1) 后,您的数据集变为 A=(-1, -1), B=(-1,1), C=(1,1) .您的兴趣点对应于这个新 space 中的 (0.9, -1)。因此,A 现在是最近的邻居。
我同意 dedObed。然而,答案似乎暗示缩放变量在 KNN 中是不可取的。当涉及数量级非常不同的变量时,具有最高数量级的变量将主导分析。这在某些情况下可能是不可取的。缩放所有变量可以防止这个问题。
为什么 KNN 中需要归一化?我知道这个过程归一化了所有特征对结果的影响,但是 'K' 在归一化之前最接近特定点 V 的点将与 'K' 归一化后最接近该特定点 V 的点 。那么归一化对欧氏距离有何影响。毕竟 KNN 完全取决于欧几里得距离? 提前致谢!
大多数归一化技术都会改变 'K' 最近邻,如果你在不同的维度上有不同的可变性。
想象一下 A=(-5,0)、B=(-5,1) 和 C=(5,1) 的数据集。现在考虑一个兴趣点 (4.5, 0)。很明显,C是最近的邻居。
在两个维度上最小-最大归一化为 (-1,1) 后,您的数据集变为 A=(-1, -1), B=(-1,1), C=(1,1) .您的兴趣点对应于这个新 space 中的 (0.9, -1)。因此,A 现在是最近的邻居。
我同意 dedObed。然而,答案似乎暗示缩放变量在 KNN 中是不可取的。当涉及数量级非常不同的变量时,具有最高数量级的变量将主导分析。这在某些情况下可能是不可取的。缩放所有变量可以防止这个问题。