有没有办法理解为什么 K-Means 使用特定变量进行聚类？

Question

我对 R 和聚类还很陌生，目前我正在做作业。任务是对一家房企的数据进行聚类，以便根据结果更好地理解和调整其商业模式。

可以找到原始数据集here。我删除了一些列，因为（根据作业）它们不相关。在 R 中看起来像这样：

我使用 K-Means 来执行聚类。

#use Elbow Method in order to understand how many clusters are needed.
set.seed(123)

fviz_nbclust(clustering, kmeans, method = "wss")

#perform k-means
k2 <- kmeans(clustering, centers = 10, nstart = 25)
str(k2)

fviz_cluster(k2, data = clustering)

结果是：

看起来 K-Means 使用 sqft_lot 来创建集群。这是一个由算法自动选择的变量，还是我可以手动选择和设置聚类变量？我只是不确定 sqft_lot 是否是最佳选择。

目前我对结果不是很满意。我不确定它是否真的以当前形式提供了有价值的信息。

Answer 1

您将聚类与图中的二维投影混淆了。聚类使用所有维度，但在图中，8 维数据点被投影到 2 维 space.

这种投影方法称为“多维缩放”(MDS)。 MDS 有不同的算法，但大概 fviz 使用 PCA，一种投影到具有最高方差的两个方向的方法。由于 sqft_lot 是具有最高方差的变量，它在投影 space.

中主导方向之一

有没有办法理解为什么 K-Means 使用特定变量进行聚类？

Is there a way to understand why K-Means uses a specific variable for clustering?

r

k-means