具有相同支持度但不同置信度值的关联规则

Question

我正在从我的数据中生成规则，我注意到一件事是一些重复的规则。这些规则具有相同的支持度、提升度和计数值，但置信度和覆盖度值不同。

我最初认为这是由于其中一个产品名称中的白色 space 造成的，但在挖掘规则之前我已经修剪并清理了产品信息。

#GENERATE RULES
rules1 <- apriori(transactions,
                 parameter = list(
                   sup = supportLevels[3],
                   conf = confidenceLevels[9],
                   minlen = 2,
                   target = "rules"
                 )
)

# VIEW THE ASSOCIATION RULES
inspect(sort(rules1, 
             by = "lift", # sort by strongests to weakest rules
             decreasing = TRUE))

您可以在下面看到前两个规则 duplicated/symmetrical 但具有不同的置信度值。

不幸的是，我无法共享我的数据集，因为它是专有的，而且我无法使用 Arules 中的 Groceries 数据集进行复制。

有谁知道为什么我可以得到不同的信心，但对这些规则的支持和提升是一样的？

Answer 1

这直接来自两个规则的度量定义

X => Y
Y => X

它们都是从 X 和 Y 的并集给出的相同频繁项集中创建的。

支持度是在生成个频繁项集上计算的，所以supp(X => Y) = supp(Y => X) = supp(X and Y)
电梯是对称的，所以lift(X => Y) = lift(X => Y)
信心是不对称的，取决于左手边的支持。因此，如果 supp(X) 不同于 supp(Y)，则 conf(X => Y) 将不同于 conf(Y => X)。

具有相同支持度但不同置信度值的关联规则

Association rules having same support but different confidence values

r

arules