计算 R rstats 中预聚合数据(具有均值和计数)的中位数
Calculate median on pre-aggregated data (having means and counts) in R rstats
如何对已经聚合的数据进行正确的median
计算?
例如,如果我有一个如下所示的数据框:
> df <- data.frame(name = c("A","B","C","D"), count = c(1,3,5,2), avg = c(100,50,20,10))
> df
# A tibble: 4 × 3
name count avg
<chr> <dbl> <dbl>
1 A 1 100
2 B 3 50
3 C 5 20
4 D 2 10
假设我们不太了解箱内的内容,但假设箱内几乎没有变化。
据我们所知,我们会像这样排列值:
10 10 20 20 20 20 20 50 50 50 100
在 11 个值中,中位数将是第 第 6 个,即 20
但如果我简单地取 median()
,R 会取 4 个值:10, 20, 50, 100
> median(df$avg)
[1] 35
这不是我想要的。
如何解决这个问题并“展开”数据集?
根据李哲元的评论解决了。
这很简单,我很惊讶我不知道它。
with(df, median(rep.int(avg, count)) )
如何对已经聚合的数据进行正确的median
计算?
例如,如果我有一个如下所示的数据框:
> df <- data.frame(name = c("A","B","C","D"), count = c(1,3,5,2), avg = c(100,50,20,10))
> df
# A tibble: 4 × 3
name count avg
<chr> <dbl> <dbl>
1 A 1 100
2 B 3 50
3 C 5 20
4 D 2 10
假设我们不太了解箱内的内容,但假设箱内几乎没有变化。 据我们所知,我们会像这样排列值:
10 10 20 20 20 20 20 50 50 50 100
在 11 个值中,中位数将是第 第 6 个,即 20
但如果我简单地取 median()
,R 会取 4 个值:10, 20, 50, 100
> median(df$avg)
[1] 35
这不是我想要的。
如何解决这个问题并“展开”数据集?
根据李哲元的评论解决了。 这很简单,我很惊讶我不知道它。
with(df, median(rep.int(avg, count)) )