通过 By 函数加权平均

Question

我正在努力调整我编写的函数，这让我很头疼，所以我想 post 在这里。

在我使用 R 的 "by" 函数的函数中，它将数据帧放入子集中并在其上运行一个函数。

现在我正在扩展函数以包括 weighted.mean（来自 'descr' 包）并且我收到一个错误，指出 x 和 w 的长度不相等。

一些要显示的代码：

set.seed(100)
d1 <- rnorm(300)
d2 <- (floor(runif(100, min=1, max=4)))
weight <- rnorm(300,mean = 1, sd = 1)
df <- cbind.data.frame(d1,d2,weight)
df$d2 <- factor(df$d2,
                levels = c(1,2,3,4),
                labels = c("red", "blue", "green","orange")) 



require('descr')

by(df$d1, df$d2, function(x) mean(x=x, na.rm=TRUE))
by(df$d1, df$d2, function(x) weighted.mean(x=x,w=df$weight na.rm=TRUE))

所以我正在制作一个数据框，其中包含 1 个数值、1 个具有 4 个级别的因子，尽管只有 3 个具有数据（例如 missing/fitlered 数据）和一个权重变量。

第 8 个命令是我现在拥有的，但现在我还需要增加它的重量。所以这给了我每种颜色的平均值。对于我没有任何数据的 d2 级别，它也是 returns NA，这正是我所需要的。（因为我正在处理不同的数据集并且需要合并结果，所以重要的是所有定义的级别也被输出。）

第 9 个命令（其中带有 weighted.mean 的命令）returns x/w 的长度不同的错误。这是因为by为每块df$d2创建一个df$d1的子集，但是weighted.mean(x=x, w = weight,...)中的权重是整个变量而不是部分的子集。

我一直在尝试查看weighted.mean的代码，看看我是否可以重写它，但没有找到解决方案。随时欢迎任何帮助。

Answer 1

诀窍是使用整个 data.frame 作为输入除以索引

by(data = df, INDICES = df$d2, FUN = function(dfgroup) {
  weighted.mean(x = dfgroup$d1, w = dfgroup$weight, na.rm=TRUE)
})

通过 By 函数加权平均

Weighted mean through the By function

r

weighted-average