如何使用 kmeans 聚类解释更高百分比的点变异性?
How to explain a higher percentage of point variability using kmeans clustering?
我正在做一些 kmeans 聚类:
无论我选择使用多少簇,点变异的百分比都不会改变:
这是我绘制数据的方式:
# Prepare Data
mydata <- read.csv("~/student-mat.csv", sep=";")
# Let's only grab the numeric columns
mydata <- mydata[,c("age","Medu","Fedu","traveltime","studytime","failures","fam
mydata <- na.omit(mydata) # listwise deletion of missing
mydata <- scale(mydata) # standardize variables ibrary(ggplot2)
# K-Means Clustering with 5 clusters
fit <- kmeans(mydata, 5) #to change number of clusters, I change the "5"
# Cluster Plot against 1st 2 principal components
# vary parameters for most readable graph
library(cluster)
clusplot(mydata, fit$cluster, color=TRUE, shade=TRUE,
labels=0, lines=0)
我们如何影响点可变性的百分比?
解释的方差量与为可视化数据而计算的两个主要成分有关。这与聚类算法的类型或您使用的算法的准确性(在本例中为 kmeans)无关。
要了解您的聚类算法至少有多准确,您可以使用 table()
构建一个交叉分类 table 与您观察到的数据,通常是您保留的一些数据聚类过程。然后使用该 cross-tabulation/confusion 矩阵,您可以计算 User's/Producer 的准确性等指标。当然还有更复杂的方法,但希望这可以让您开始思考评估的最佳方法你的分类准确率。
k 均值不是 "explaining" 方差。
数字是指 clusplot
自动为您完成的 可视化 。所以你被太多的自动化误导了。
从情节来看,我会说数据不与 k 均值聚类。
我正在做一些 kmeans 聚类:
无论我选择使用多少簇,点变异的百分比都不会改变:
这是我绘制数据的方式:
# Prepare Data
mydata <- read.csv("~/student-mat.csv", sep=";")
# Let's only grab the numeric columns
mydata <- mydata[,c("age","Medu","Fedu","traveltime","studytime","failures","fam
mydata <- na.omit(mydata) # listwise deletion of missing
mydata <- scale(mydata) # standardize variables ibrary(ggplot2)
# K-Means Clustering with 5 clusters
fit <- kmeans(mydata, 5) #to change number of clusters, I change the "5"
# Cluster Plot against 1st 2 principal components
# vary parameters for most readable graph
library(cluster)
clusplot(mydata, fit$cluster, color=TRUE, shade=TRUE,
labels=0, lines=0)
我们如何影响点可变性的百分比?
解释的方差量与为可视化数据而计算的两个主要成分有关。这与聚类算法的类型或您使用的算法的准确性(在本例中为 kmeans)无关。
要了解您的聚类算法至少有多准确,您可以使用 table()
构建一个交叉分类 table 与您观察到的数据,通常是您保留的一些数据聚类过程。然后使用该 cross-tabulation/confusion 矩阵,您可以计算 User's/Producer 的准确性等指标。当然还有更复杂的方法,但希望这可以让您开始思考评估的最佳方法你的分类准确率。
k 均值不是 "explaining" 方差。
数字是指 clusplot
自动为您完成的 可视化 。所以你被太多的自动化误导了。
从情节来看,我会说数据不与 k 均值聚类。