杰卡德系数的独特原理

Question

您好，我有一个可以使用以下方法模拟的数据集：

set.seed(123)
v1 <- rbinom(10000, 1, .2)
v2 <- rbinom(10000, 1, .3)
v3 <- rbinom(10000, 1, .25)
v4 <- rbinom(10000, 1, .5)
v5 <- rbinom(10000, 1, .35)
v6 <- rbinom(10000, 1, .2)
v7 <- rbinom(10000, 1, .3)
v8 <- rbinom(10000, 1, .25)
v9 <- rbinom(10000, 1, .5)
v10<- rbinom(10000, 1, .35)
dats <- data.frame(v1,v2,v3,v4,v5,v6,v7,v8,v9,v10)

我正在使用 Jaccard 距离创建一个距离结构，如下所示：

dat.jac <- philentropy::distance(dats, method = "jaccard")

所以这是我的问题：由于这些是二进制变量，这意味着最多有 2^10 = 1024 个唯一组。这是否意味着我有超过 1024 个点的数据代表过多？另一种问这个问题的方法是，我是否需要计算唯一观测值的 Jaccard 距离并将观测值的计数用作权重，或者我是否可以只计算每个观测值（行）的 Jaccard 距离以获得距离矩阵？在编程方面，我应该从以下哪个方面着手？

dat.jac <- philentropy::distance(dats, method = "jaccard")

或

dat.jac <- philentropy::distance(unique(dats), method = "jaccard")

我的目标是使用以下代码在层次聚类中使用距离矩阵：

dist.jac.mat<- as.matrix(dist.jac)
dist.jac.mat[is.na(dist.jac.mat)] <- 0 
hc <- hclust(as.dist(dist.jac.mat), method = "single")
fviz_nbclust(dats, FUN = hcut, diss = as.dist(dist.jac.mat), k.max = 15, 
nboot = 250, method = "silhouette")

Answer 1

单人link确实只用唯一点就够了。因为数量无关紧要，单件完整link。对于其他 link 年龄，这通常不成立。在那里你需要使用加权聚类，并按重复次数加权。

但是，你会遇到不同的问题：

由于您几乎拥有所有组合，因此聚类将毫无用处。可能的距离非常少，在连接所有内容之前，您的树状图可能只有很少的级别。这是此类数据所固有的。聚类在连续变量上效果最好，其中重复距离很少。

杰卡德系数的独特原理

Unique Principle of Jaccard Coefficient

r

cluster-analysis

hierarchical-clustering