如何使用 kmeans 聚类解释更高百分比的点变异性?

How to explain a higher percentage of point variability using kmeans clustering?

我正在做一些 kmeans 聚类:

无论我选择使用多少簇,点变异的百分比都不会改变:

这是我绘制数据的方式:

# Prepare Data
mydata <- read.csv("~/student-mat.csv", sep=";")

# Let's only grab the numeric columns
mydata <- mydata[,c("age","Medu","Fedu","traveltime","studytime","failures","fam

mydata <- na.omit(mydata) # listwise deletion of missing
mydata <- scale(mydata) # standardize variables ibrary(ggplot2)

# K-Means Clustering with 5 clusters
fit <- kmeans(mydata, 5) #to change number of clusters, I change the "5"

# Cluster Plot against 1st 2 principal components

# vary parameters for most readable graph
library(cluster)
clusplot(mydata, fit$cluster, color=TRUE, shade=TRUE,
   labels=0, lines=0)

我们如何影响点可变性的百分比?

解释的方差量与为可视化数据而计算的两个主要成分有关。这与聚类算法的类型或您使用的算法的准确性(在本例中为 kmeans)无关。

要了解您的聚类算法至少有多准确,您可以使用 table() 构建一个交叉分类 table 与您观察到的数据,通常是您保留的一些数据聚类过程。然后使用该 cross-tabulation/confusion 矩阵,您可以计算 User's/Producer 的准确性等指标。当然还有更复杂的方法,但希望这可以让您开始思考评估的最佳方法你的分类准确率。

k 均值不是 "explaining" 方差。

数字是指 clusplot 自动为您完成的 可视化 。所以你被太多的自动化误导了。

从情节来看,我会说数据不与 k 均值聚类。