R:如何识别和标记树状图中的簇群(由 hclust 创建)?

R: How to identify and label cluster groups in a dendrogram (created by hclust)?

我已经使用 hclust 识别数据中的集群,并确定这些集群的性质。以下是一个非常简化的版本:

gg <- c(1,2,4,3,3,15,16)
hh <- c(1,10,3,10,10,18,16)
z <- data.frame(gg,hh)
means <- apply(z,2,mean)
sds <- apply(z,2,sd)
nor <- scale(z,center=means,scale=sds) 
d <- dist(nor, method = "euclidean")
fit <- hclust(d, method="ward.D2")
plot(fit)
rect.hclust(fit, k=3, border="red")  
groups <- cutree(fit, k=3) 
aggregate(nor,list(groups),mean)

使用聚合我可以看到这三个集群包括一个在 gg 和 hh 变量上都具有低值的集群,一个具有低 gg 和平均 hh 的集群,以及一个具有高 gg 和高 hh 值的集群

如何查看这些在树状图上的位置(到目前为止,我只能通过检查组的大小并将它们与树状图上的大小进行比较来判断)?我怎样才能以某种方式在树状图上标记这些集群组(例如,在每个集群上添加类似 "low"、"med"、"high" 的名称)?我更喜欢基本 R

中的答案

不幸的是,如果不使用 dendextend 包,则没有可用于标记的简单选项。最接近的赌注是利用 rect.hclust() 公式中的 border 参数来为矩形着色……但这并不好玩。看看 - http://www.sthda.com/english/wiki/beautiful-dendrogram-visualizations-in-r-5-must-known-methods-unsupervised-machine-learning.

在这种有 2 列的情况下,我建议简单地绘制 z data.frame 并根据您的 groups 在视觉上着色或分组。如果您标记这些点,那将进一步使其与树状图具有可比性。看这个例子:

# your data
gg <- c(1,2,4,3,3,15,16)
hh <- c(1,10,3,10,10,18,16)
z <- data.frame(gg,hh)

# a fun visualization function
visualize_clusters <- function(z, nclusters = 3, 
                           groupcolors = c("blue", "black", "red"), 
                           groupshapes = c(16,17,18), 
                           scaled_axes = TRUE){
  nor <- scale(z) # already defualts to use the datasets mean, sd)
  d <- dist(nor, method = "euclidean")
  fit <<- hclust(d, method = "ward.D2") # saves fit to the environment too
  groups <- cutree(fit, k = nclusters) 

  if(scaled_axes) z <- nor
  n <- nrow(z)
  plot(z, main = "Visualize Clusters",
       xlim = range(z[,1]), ylim = range(z[,2]),
       pch = groupshapes[groups], col = groupcolors[groups])
  grid(3,3, col = "darkgray") # dividing the plot into a grid of low, medium and high
  text(z[,1], z[,2], 1:n, pos = 4)

  centroids <- aggregate(z, list(groups), mean)[,-1]
  points(centroids, cex = 1, pch = 8, col = groupcolors)
  for(i in 1:nclusters){
    segments(rep(centroids[i,1],n), rep(centroids[i,2],n), 
             z[groups==i,1], z[groups==i,2], 
             col = groupcolors[i])
  }
  legend("topleft", bty = "n", legend = paste("Cluster", 1:nclusters), 
         text.col = groupcolors, cex = .8)
}

现在我们可以将它们绘制在一起:

par(mfrow = c(2,1))
visualize_clusters(z, nclusters = 3, groupcolors = c("blue", "black", "red"))
plot(fit); rect.hclust(fit, 3, border = rev(c("blue", "black", "red")))
par(mfrow = c(1,1)

记下低-低、低-中、高-高的视力检查网格。

我喜欢线段。在更大的数据上尝试,例如:

gg <- runif(30,1,20)
hh <- c(runif(10,5,10),runif(10,10,20),runif(10,1,5))
z <- data.frame(gg,hh)
visualize_clusters(z, nclusters = 3, groupcolors = c("blue", "black", "red"))

希望对您有所帮助。