所有值都相同的列错误

Question

在 R 包 - ClustOfVar 中，有一些方法可以将变量相互聚类。它给出了如下错误 -

train2 = train[!duplicated(lapply(train, summary))]
> tree <- hclustvar(train2[, 2:10])
Error in recodquant(X.quanti) : 
  There are columns in X.quanti where all the values are identical

据我了解，为了确保我的变量不相同，我应用了重复的逻辑来删除重复的变量。

我检查了 https://github.com/cran/PCAmixdata/blob/master/R/recodquant.R 上的包代码，但无法识别错误。

有什么想法吗？

谢谢，马尼什

Answer 1

以下代码不正确，无法正确识别重复项 -

train2 = train[!duplicated(lapply(train, summary))]

请使用以下 -

library(digest)
train2 = train[!duplicated(lapply(train, digest))]

Answer 2

我想，这不是列相同的问题。我尝试了上述解决方案，但对我不起作用。在阅读 ClustOfVar 包时，我了解到，它在内部计算变量之间的相关性。然后，我计算变量之间的互相关。和 I find that the cross correlation between some variables was NA。然后，我手动删除这些变量并为我工作。

使用xcor = cor(data)计算变量之间的互相关。使用导出互相关数据 write.csv(xcor, 'xcor.csv')

Check for the variable for which correlation is NA，然后删除这些变量并再次运行代码。

参考：https://www.jstatsoft.org/article/view/v050i13/v50i13.pdf

上面的参考解释了 ClustOfVar 的工作原理。

所有值都相同的列错误

Columns in where all the values are identical Error

variables

r

hierarchical-clustering