尽管使用 k-means 算法的两个特征的方差存在差异,但聚类仍然有意义吗?
Will the clusters still be meaningful despite the disparity between the variance of my two features using the k-means algorithm?
我有一组数据,其中包含一对 (x,y)
,每个变量的方差差异很大。我想使用 k-means 算法对我的数据进行聚类,因为我相信这背后有一个基本原理。
尽管我的两个特征的方差存在差异,但聚类仍然有意义吗?
取决于您的数据。
如果您在 x 和 y 上有物理位置,但对象大部分位于一条直线上,则具有不同的方差是完全合理的。
如果因为在 x 轴上使用英尺而在 y 轴上使用毫米而导致方差,则结果会很糟糕。
我有一组数据,其中包含一对 (x,y)
,每个变量的方差差异很大。我想使用 k-means 算法对我的数据进行聚类,因为我相信这背后有一个基本原理。
尽管我的两个特征的方差存在差异,但聚类仍然有意义吗?
取决于您的数据。
如果您在 x 和 y 上有物理位置,但对象大部分位于一条直线上,则具有不同的方差是完全合理的。
如果因为在 x 轴上使用英尺而在 y 轴上使用毫米而导致方差,则结果会很糟糕。