所有值都相同的列错误

Columns in where all the values are identical Error

在 R 包 - ClustOfVar 中,有一些方法可以将变量相互聚类。它给出了如下错误 -

train2 = train[!duplicated(lapply(train, summary))]
> tree <- hclustvar(train2[, 2:10])
Error in recodquant(X.quanti) : 
  There are columns in X.quanti where all the values are identical

据我了解,为了确保我的变量不相同,我应用了重复的逻辑来删除重复的变量。

我检查了 https://github.com/cran/PCAmixdata/blob/master/R/recodquant.R 上的包代码,但无法识别错误。

有什么想法吗?

谢谢, 马尼什

以下代码不正确,无法正确识别重复项 -

train2 = train[!duplicated(lapply(train, summary))]

请使用以下 -

library(digest)
train2 = train[!duplicated(lapply(train, digest))]

我想,这不是列相同的问题。我尝试了上述解决方案,但对我不起作用。 在阅读 ClustOfVar 包时,我了解到,它在内部计算变量之间的相关性。然后,我计算变量之间的互相关。和 I find that the cross correlation between some variables was NA。然后,我手动删除这些变量并为我工作。

使用xcor = cor(data)计算变量之间的互相关。 使用导出互相关数据 write.csv(xcor, 'xcor.csv')

Check for the variable for which correlation is NA,然后删除这些变量并再次 运行 代码。

参考:https://www.jstatsoft.org/article/view/v050i13/v50i13.pdf

上面的参考解释了 ClustOfVar 的工作原理。