如何计算数据帧中每个变量值组合出现的时间?
How do I calculate the times each combination of variable values in a dataframe occurs?
我可以使用 distinct() 获取所有唯一组合的数据框,现在我想获取每个唯一组合出现的次数。我使用的实际数据框有超过 10k 种组合,所以我无法手动计算它。
n=1000000
X = rbinom(size=1,n,p=0.3)
U = rbinom(size=1,n,p=0.5)
Y = rbinom(size=1,n,p=0.1)
dat<-data.frame(X, Y, U)
distinct(dat, X, U)
您可以使用 dplyr::count
也可以像这样查看 dplyr::add_count
:
dplyr::count(dat, X, U)
# identical to
dplyr::group_by(dat, X, U) %>%
dplyr::summarise(n = n())
dplyr::add_count(dat, X, U)
我可以使用 distinct() 获取所有唯一组合的数据框,现在我想获取每个唯一组合出现的次数。我使用的实际数据框有超过 10k 种组合,所以我无法手动计算它。
n=1000000
X = rbinom(size=1,n,p=0.3)
U = rbinom(size=1,n,p=0.5)
Y = rbinom(size=1,n,p=0.1)
dat<-data.frame(X, Y, U)
distinct(dat, X, U)
您可以使用 dplyr::count
也可以像这样查看 dplyr::add_count
:
dplyr::count(dat, X, U)
# identical to
dplyr::group_by(dat, X, U) %>%
dplyr::summarise(n = n())
dplyr::add_count(dat, X, U)