关联规则挖掘

Association rule mining

我有一个主要包含整数值的数据集。我想对其应用关联规则挖掘。我看过流行的算法,如 Apriori 等,但它们都处理具有布尔值的数据,即该项目存在于交易中或不存在。

是否有一种算法可以让我们在计算属性值的同时考虑属性值? (我计划将数据标准化为 0 到 1 之间的值)

如果你的数字是整数(为什么归一化为 0 1?)并且很小,你可以 "hack" 绕过这个限制:

apple banana apple

变成

apple banana apple_2

这将允许找到像

这样的关联规则
banana => apple, apple_2

但是你需要混合一些聪明的过滤器来避免像

这样的无用规则
apple_2 => apple

是的。项目集挖掘问题有一些变体,可以让您指定额外的信息。例如,高效用项目集挖掘算法允许您为交易中出现的每个项目指定数量,以及每个项目的权重。

项目-项目协同过滤与关联规则挖掘等基于相似性的数据挖掘技术非常相似。此外,协作过滤的构建是为了处理连续和有序的值,例如星级或李克特量表:这通常是来自用户的偏好信息。

基于内容的过滤可能是您所描述情况的最佳选择。它允许项目属性和权重(不会针对该项目的每个用户更改),然后接受每个项目的用户偏好(对于该项目每个用户都会更改)。

如果您希望每个用户-项目对的首选项(计数)和属性都发生变化,我不知道可以处理该问题的算法。通常算法是为每个用户-项目对的一个输入构建的。