如何避免 R 树状图上的文本,以及对组数的限制
How to avoid text on R dendograms, and limitation on number of groups
我正在处理一个包含 20.000 个变量的数据集。这些变量是使用相同的单位测量来测量的,但由于它是一个非常大的数字,我决定对变量进行聚类以获得以某种方式相关的变量组。
我认为应用层次聚类是一个不错的选择,因此我使用了以下代码(假设 D 是数据框):
d <- dist(D, method = "euclidean")
clust1 <- hclust(d, method="ward.D")
plot(clust1)
groups <- cutree(fit, k=150)
我得到的树状图如下:
如您所见,变量名称使得在这里很难看到有用的东西,但我实际上不知道如何做才能使 R 不在树状图上显示变量名称。
我还有一个问题:我用命令"cutree"构建gropus,但是发现这个命令有一个限制,最多只能构建150个gropus。 ¿有没有其他方法可以不受此限制地建立组?
非常感谢
PD:关于如何对这个疯狂的数据集进行分组的任何其他建议都将得到很好的接受
您是说抑制大小写标签而不是变量标签吗?
如果是这样,请使用 as.dendrogram 和 leaflab 参数
plot(as.dendrogram(clust1),leaflab='none')
我认为 cutree 中的 k 没有限制。您可能想试试 flashClust 包,它更适合用于层次聚类的大型数据集。
我正在处理一个包含 20.000 个变量的数据集。这些变量是使用相同的单位测量来测量的,但由于它是一个非常大的数字,我决定对变量进行聚类以获得以某种方式相关的变量组。
我认为应用层次聚类是一个不错的选择,因此我使用了以下代码(假设 D 是数据框):
d <- dist(D, method = "euclidean")
clust1 <- hclust(d, method="ward.D")
plot(clust1)
groups <- cutree(fit, k=150)
我得到的树状图如下:
如您所见,变量名称使得在这里很难看到有用的东西,但我实际上不知道如何做才能使 R 不在树状图上显示变量名称。
我还有一个问题:我用命令"cutree"构建gropus,但是发现这个命令有一个限制,最多只能构建150个gropus。 ¿有没有其他方法可以不受此限制地建立组?
非常感谢
PD:关于如何对这个疯狂的数据集进行分组的任何其他建议都将得到很好的接受
您是说抑制大小写标签而不是变量标签吗? 如果是这样,请使用 as.dendrogram 和 leaflab 参数
plot(as.dendrogram(clust1),leaflab='none')
我认为 cutree 中的 k 没有限制。您可能想试试 flashClust 包,它更适合用于层次聚类的大型数据集。