具有相同支持度但不同置信度值的关联规则

Association rules having same support but different confidence values

我正在从我的数据中生成规则,我注意到一件事是一些重复的规则。这些规则具有相同的支持度、提升度和计数值,但置信度和覆盖度值不同。

我最初认为这是由于其中一个产品名称中的白色 space 造成的,但在挖掘规则之前我已经修剪并清理了产品信息。

#GENERATE RULES
rules1 <- apriori(transactions,
                 parameter = list(
                   sup = supportLevels[3],
                   conf = confidenceLevels[9],
                   minlen = 2,
                   target = "rules"
                 )
)

# VIEW THE ASSOCIATION RULES
inspect(sort(rules1, 
             by = "lift", # sort by strongests to weakest rules
             decreasing = TRUE))

您可以在下面看到前两个规则 duplicated/symmetrical 但具有不同的置信度值。

不幸的是,我无法共享我的数据集,因为它是专有的,而且我无法使用 Arules 中的 Groceries 数据集进行复制。

有谁知道为什么我可以得到不同的信心,但对这些规则的支持和提升是一样的?

这直接来自两个规则的度量定义

X => Y
Y => X

它们都是从 X 和 Y 的并集给出的相同频繁项集中创建的。

  • 支持度是在生成个频繁项集上计算的,所以supp(X => Y) = supp(Y => X) = supp(X and Y)
  • 电梯是对称的,所以lift(X => Y) = lift(X => Y)
  • 信心是不对称的,取决于左手边的支持。因此,如果 supp(X) 不同于 supp(Y),则 conf(X => Y) 将不同于 conf(Y => X)