如何通过arules R中的lhs itemMatrix对象对规则进行子集化?

How to subset rules by a lhs itemMatrix object in arules R?

我生成的规则侧重于 rhs 侧的三个不同值,如下所示(在本例中,fallotrayec 的三个不同值):

rules <- apriori(df, parameter=list(minlen=3,maxlen=6,supp=0.015,conf=0.6,maxtime=120),
                appearance = list(rhs=c("fallotrayec_f1", "fallotrayec_f2", "fallotrayec_f3")))

现在我可以从中提取 3 个规则子集,每个值仅包含较高的支持值:

rules_f1 <- subset(rules, (rhs %in% "fallotrayec_f1") & support > 0.4 )
rules_f2 <- subset(rules, subset = (rhs %in% "fallotrayec_f2") & support > 0.18  )
rules_f3 <- subset(rules, subset = (rhs %in% "fallotrayec_f3") & support > 0.015  )

之后,我从这 3 个子集中得到 lhs 面:

lhs_f1 <- lhs(rules_f1)
lhs_f2 <- lhs(rules_f2)
lhs_f3 <- lhs(rules_f3)

最后,我想从 rules_f1 中删除所有带有 lhs 的规则等于在 rules_f2[=31 上找到的规则=] 和 rules_f3,然后我试了:

rules_f1_new <- subset(rules_f1, !(lhs %in% lhs_f2) | !(lhs %in% lhs_f3) )

但它一直返回以下错误:

Error in validObject(x, complete = TRUE) : 
invalid class “itemMatrix” object: item labels not unique

我使用的是 Rstudio v. 1.1.423 和 R v. 3.4.3。不幸的是,我使用的数据是受保护的,但我认为可以使用其中一个演示数据集来模拟上述代码。我还使用 rm.duplicates=TRUE 加载了我的数据集。提前致谢。

您似乎在代码中发现了错误。执行以下命令替换错误代码并检查输出是否符合预期。

setMethod("%in%", signature(x = "itemMatrix", table = "itemMatrix"),
  function(x, table) !is.na(match(x, table))
)

这将在 arules 的下一版本中修复。谢谢你的例子。对发现问题很有帮助