r corrplot with clustering:相关矩阵的默认差异度量
r corrplot with clustering: default dissimilarity measure for correlation matrix
我使用 R 包 corrplot
从我的数据中可视化相关矩阵。我涉及使用嵌入式选项 hclust 的变量聚类。
命令的调用是这样的(加上标题、轴等的各种排列):
corrplot(Rbas,type="upper",order="hclust",method="ellipse")
但是现在我使用其他包进行了一些分析和可视化,结果出现了关于结果兼容性的问题。特别是,我必须手动重复相关矩阵的聚类。但是从文档到 corrplot
有一个模糊的地方:corrplot 在其合理的默认值背后使用了什么相异性度量?这是 1-|corr|、sqrt(1-corr^2) 还是其他?文献中有多种选择,例如this article
中描述的
更新 来回答自己的问题。我使用 1-corr 形式的相异性度量进行了猜测试验。那就是我编码的(Rbas是相关矩阵):
dissim1<-1-Rbas
dist1<-as.dist(dissim1)
plot(hclust(dist1))
并恢复了变量的顺序,与默认 corrplot
和 hclust
调用建议的顺序一致。但不清楚这是否确实是他们使用的机制,以及这是否适用于任何其他矩阵?
corrplot
用来重新排序变量的函数是corrMatOrder
(试试?corrMatOrder
)。
它 returns 一个单一的置换向量。
当在 corrplot
中选择 order= "hclust"
时,corrMatOrder
调用 corrplot:::reorder_using_hclust
函数:
function (corr, hclust.method)
{
hc <- hclust(as.dist(1 - corr), method = hclust.method)
order.dendrogram(as.dendrogram(hc))
}
此函数使用 1-corr
作为相异性度量。
我使用 R 包 corrplot
从我的数据中可视化相关矩阵。我涉及使用嵌入式选项 hclust 的变量聚类。
命令的调用是这样的(加上标题、轴等的各种排列):
corrplot(Rbas,type="upper",order="hclust",method="ellipse")
但是现在我使用其他包进行了一些分析和可视化,结果出现了关于结果兼容性的问题。特别是,我必须手动重复相关矩阵的聚类。但是从文档到 corrplot
有一个模糊的地方:corrplot 在其合理的默认值背后使用了什么相异性度量?这是 1-|corr|、sqrt(1-corr^2) 还是其他?文献中有多种选择,例如this article
更新 来回答自己的问题。我使用 1-corr 形式的相异性度量进行了猜测试验。那就是我编码的(Rbas是相关矩阵):
dissim1<-1-Rbas
dist1<-as.dist(dissim1)
plot(hclust(dist1))
并恢复了变量的顺序,与默认 corrplot
和 hclust
调用建议的顺序一致。但不清楚这是否确实是他们使用的机制,以及这是否适用于任何其他矩阵?
corrplot
用来重新排序变量的函数是corrMatOrder
(试试?corrMatOrder
)。
它 returns 一个单一的置换向量。
当在 corrplot
中选择 order= "hclust"
时,corrMatOrder
调用 corrplot:::reorder_using_hclust
函数:
function (corr, hclust.method)
{
hc <- hclust(as.dist(1 - corr), method = hclust.method)
order.dendrogram(as.dendrogram(hc))
}
此函数使用 1-corr
作为相异性度量。