如何在 R 中使用 mutate_at 计算加权平均值?
How to calculate weighted mean using mutate_at in R?
我有一个数据框(“df”),其中包含许多列,我想估计这些列的加权平均值,按人口加权(df$Population),并按通勤区分组(df$cz)。
这是我想估计以下的加权平均值的列的列表:
vlist = c("Public_Welf_Total_Exp", "Welf_Cash_Total_Exp", "Welf_Cash_Cash_Assist", "Welf_Ins_Total_Exp","Total_Educ_Direct_Exp", "Higher_Ed_Total_Exp", "Welf_NEC_Cap_Outlay","Welf_NEC_Direct_Expend", "Welf_NEC_Total_Expend", "Total_Educ_Assist___Sub", "Health_Total_Expend", "Total_Hospital_Total_Exp", "Welf_Vend_Pmts_Medical","Hosp_Other_Total_Exp","Unemp_Comp_Total_Exp", "Unemp_Comp_Cash___Sec", "Total_Unemp_Rev", "Hous___Com_Total_Exp", "Hous___Com_Construct")
这是我一直在使用的代码:
df = df %>% group_by(cz) %>% mutate_at(vlist, weighted.mean(., df$Population))
我也试过:
df = df %>% group_by(cz) %>% mutate_at(vlist, function(x) weighted.mean(x, df$Population))
以及仅在 2 列上测试了以下代码:
df = df %>% group_by(cz) %>% mutate_at(vars(Public_Welf_Total_Exp, Welf_Cash_Total_Exp), weighted.mean(., df$Population))
但是,即使我的任何变量中都没有 NA,我尝试的所有操作都会出现以下错误:
Error in weighted.mean.default(., df$Population) :
'x' and 'w' must have the same length
我知道我可以使用 lapply 进行以下估计,但我不知道如何使用 lapply 按另一个变量分组。如果有任何建议,我将不胜感激!
这里有很多东西要打开...
- 可能您的意思是
summarise
而不是 mutate
,因为使用 mutate
您只需复制每一行的结果。
mutate_at
和 summarise_at
是种子种子,您应该使用 across
代替。
- 你的代码不工作的原因是你没有把你的函数写成公式(你没有在开头添加
~
),而且你使用的是 df$Population
Population
。当您编写 Population
时,summarise
知道您在谈论 Population
列,此时它与数据框的其余部分一样分组。当您使用 df$Population
时,您是在不分组的情况下调用原始数据框的列。它不仅是错误的,而且你还会得到一个错误,因为你试图平均的变量的长度和 df$Population
提供的权重的长度不对应。
以下是您的操作方法:
library(dplyr)
df %>%
group_by(cz) %>%
summarise(across(vlist, weighted.mean, Population),
.groups = "drop")
如果你真的需要使用summarise_at
(并且可能你使用的是旧版本dplyr
[低于1.0.0]),那么你可以这样做:
df %>%
group_by(cz) %>%
summarise_at(vlist, ~weighted.mean(., Population)) %>%
ungroup()
我认为 df
和 vlist
如下所示:
vlist <- c("Public_Welf_Total_Exp", "Welf_Cash_Total_Exp", "Welf_Cash_Cash_Assist", "Welf_Ins_Total_Exp","Total_Educ_Direct_Exp", "Higher_Ed_Total_Exp", "Welf_NEC_Cap_Outlay","Welf_NEC_Direct_Expend", "Welf_NEC_Total_Expend", "Total_Educ_Assist___Sub", "Health_Total_Expend", "Total_Hospital_Total_Exp", "Welf_Vend_Pmts_Medical","Hosp_Other_Total_Exp","Unemp_Comp_Total_Exp", "Unemp_Comp_Cash___Sec", "Total_Unemp_Rev", "Hous___Com_Total_Exp", "Hous___Com_Construct")
df <- as.data.frame(matrix(rnorm(length(vlist) * 100), ncol = length(vlist)))
names(df) <- vlist
df$cz <- rep(letters[1:10], each = 10)
df$Population <- runif(100)
我有一个数据框(“df”),其中包含许多列,我想估计这些列的加权平均值,按人口加权(df$Population),并按通勤区分组(df$cz)。
这是我想估计以下的加权平均值的列的列表:
vlist = c("Public_Welf_Total_Exp", "Welf_Cash_Total_Exp", "Welf_Cash_Cash_Assist", "Welf_Ins_Total_Exp","Total_Educ_Direct_Exp", "Higher_Ed_Total_Exp", "Welf_NEC_Cap_Outlay","Welf_NEC_Direct_Expend", "Welf_NEC_Total_Expend", "Total_Educ_Assist___Sub", "Health_Total_Expend", "Total_Hospital_Total_Exp", "Welf_Vend_Pmts_Medical","Hosp_Other_Total_Exp","Unemp_Comp_Total_Exp", "Unemp_Comp_Cash___Sec", "Total_Unemp_Rev", "Hous___Com_Total_Exp", "Hous___Com_Construct")
这是我一直在使用的代码:
df = df %>% group_by(cz) %>% mutate_at(vlist, weighted.mean(., df$Population))
我也试过:
df = df %>% group_by(cz) %>% mutate_at(vlist, function(x) weighted.mean(x, df$Population))
以及仅在 2 列上测试了以下代码:
df = df %>% group_by(cz) %>% mutate_at(vars(Public_Welf_Total_Exp, Welf_Cash_Total_Exp), weighted.mean(., df$Population))
但是,即使我的任何变量中都没有 NA,我尝试的所有操作都会出现以下错误:
Error in weighted.mean.default(., df$Population) :
'x' and 'w' must have the same length
我知道我可以使用 lapply 进行以下估计,但我不知道如何使用 lapply 按另一个变量分组。如果有任何建议,我将不胜感激!
这里有很多东西要打开...
- 可能您的意思是
summarise
而不是mutate
,因为使用mutate
您只需复制每一行的结果。 mutate_at
和summarise_at
是种子种子,您应该使用across
代替。- 你的代码不工作的原因是你没有把你的函数写成公式(你没有在开头添加
~
),而且你使用的是df$Population
Population
。当您编写Population
时,summarise
知道您在谈论Population
列,此时它与数据框的其余部分一样分组。当您使用df$Population
时,您是在不分组的情况下调用原始数据框的列。它不仅是错误的,而且你还会得到一个错误,因为你试图平均的变量的长度和df$Population
提供的权重的长度不对应。
以下是您的操作方法:
library(dplyr)
df %>%
group_by(cz) %>%
summarise(across(vlist, weighted.mean, Population),
.groups = "drop")
如果你真的需要使用summarise_at
(并且可能你使用的是旧版本dplyr
[低于1.0.0]),那么你可以这样做:
df %>%
group_by(cz) %>%
summarise_at(vlist, ~weighted.mean(., Population)) %>%
ungroup()
我认为 df
和 vlist
如下所示:
vlist <- c("Public_Welf_Total_Exp", "Welf_Cash_Total_Exp", "Welf_Cash_Cash_Assist", "Welf_Ins_Total_Exp","Total_Educ_Direct_Exp", "Higher_Ed_Total_Exp", "Welf_NEC_Cap_Outlay","Welf_NEC_Direct_Expend", "Welf_NEC_Total_Expend", "Total_Educ_Assist___Sub", "Health_Total_Expend", "Total_Hospital_Total_Exp", "Welf_Vend_Pmts_Medical","Hosp_Other_Total_Exp","Unemp_Comp_Total_Exp", "Unemp_Comp_Cash___Sec", "Total_Unemp_Rev", "Hous___Com_Total_Exp", "Hous___Com_Construct")
df <- as.data.frame(matrix(rnorm(length(vlist) * 100), ncol = length(vlist)))
names(df) <- vlist
df$cz <- rep(letters[1:10], each = 10)
df$Population <- runif(100)