如何为 Apriori 算法构造数据?
How to Structure data for Apriori Algorithm?
我想看看在推特上发布一件事的用户是否也发布了另一件事。我使用 R studio 中的 TwittR 包下载包含关键字的推文,然后在 python 中下载这些用户的时间线。我的数据结构如下。
user_name,id,created_at,文本
exampleuser,814495243068313603,2016-12-29 15:36:13, 'MT @nixon1788: Obama and the Left are disgusting anti Semitic pukes! #WithdrawUNFunding'
是否可以使用先验算法生成关联规则?有谁知道如何构建这些数据以便使用它,或者是否可以使用我拥有的数据?
先举个例子:
txt <- c("Trump builds a wall", "Trump goes wall", "Obama buys drones", "Drones by Obama")
library(quanteda)
library(arules)
dfm <- dfm(txt)
trans <- as(as.matrix(dfm), "transactions")
rules <- apriori(
data = trans,
parameter = list(minlen = 2L, maxlen=2, conf = 1),
appearance = list(lhs = c("obama", "trump"), default="rhs")
)
inspect(rules)
# lhs rhs support confidence lift
# 1 {obama} => {drones} 0.5 1 2
# 2 {trump} => {wall} 0.5 1 2
我想看看在推特上发布一件事的用户是否也发布了另一件事。我使用 R studio 中的 TwittR 包下载包含关键字的推文,然后在 python 中下载这些用户的时间线。我的数据结构如下。
user_name,id,created_at,文本
exampleuser,814495243068313603,2016-12-29 15:36:13, 'MT @nixon1788: Obama and the Left are disgusting anti Semitic pukes! #WithdrawUNFunding'
是否可以使用先验算法生成关联规则?有谁知道如何构建这些数据以便使用它,或者是否可以使用我拥有的数据?
先举个例子:
txt <- c("Trump builds a wall", "Trump goes wall", "Obama buys drones", "Drones by Obama")
library(quanteda)
library(arules)
dfm <- dfm(txt)
trans <- as(as.matrix(dfm), "transactions")
rules <- apriori(
data = trans,
parameter = list(minlen = 2L, maxlen=2, conf = 1),
appearance = list(lhs = c("obama", "trump"), default="rhs")
)
inspect(rules)
# lhs rhs support confidence lift
# 1 {obama} => {drones} 0.5 1 2
# 2 {trump} => {wall} 0.5 1 2