10000 个数据点的 x>=5 的均值和标准差二项式 (10, 1/4)

Mean and Standard Deviation of x>=5 of 10000 data points binomial(10, 1/4)

我有一个 10,000 点的数据范围:

data = rbinom(10000, size=10, prob=1/4)

我需要找到数据值的均值和标准差 >=5

大约有 766 个值:

sum(data >=5)

sum(或我能想到的任何其他方法)产生 TRUE/FALSE 并且不能在 meansd 计算中使用。如何划分实际值?!

也许试试这个:

library(dplyr)
data %>%
  as.data.frame() %>%
  filter(. >= 5) %>%
  summarise(mean = mean(.),
            sd = sd(.))

输出:

      mean        sd
1 5.297092 0.5815554

数据

data = rbinom(10000, size=10, prob=1/4)

TRUEFALSE 值可用于 mean()sum()sd() 等...因为它们的数值为 0和 1,分别。

set.seed(456)
data = rbinom(10000, size=10, prob=1/4)
mean(data >= 5)
#> [1] 0.0779
sum(data >= 5)
#> [1] 779
sd(data >= 5)
#> [1] 0.2680276

reprex package (v2.0.1)

创建于 2022-05-14

如果您想获取 data 的所有大于或等于 5 的值,而不仅仅是一个逻辑向量告诉您 if 的值data大于等于5,需要做data[data >= 5].

所以我们可以这样做:

data = rbinom(10000, size=10, prob=1/4)

mean(data[data >= 5])
#> [1] 5.298153

sd(data[data >= 5])
#> [1] 0.5567141