R：按分组变量划分的唯一 ID 的分层随机样本比例

Question

使用以下示例数据框，我想从因子 "Cohort" 的每个级别绘制 ID "ID" 的分层随机样本（例如 40%）：

data<-structure(list(Cohort = c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 
2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L), ID = structure(1:20, .Label = c("a1 ", 
"a2", "a3", "a4", "a5", "a6", "a7", "a8", "a9", "b10", "b11", 
"b12", "b13", "b14", "b15", "b16", "b17", "b18", "b19", "b20"
), class = "factor")), .Names = c("Cohort", "ID"), class = "data.frame", row.names = c(NA, 
-20L))

我只知道如何使用以下方法绘制随机行数：

library(dplyr)
data %>% 
group_by(Cohort) %>%
sample_n(size = 10)

但我的实际数据是纵向的，所以我在每个队列中有多个相同 ID 的案例和几个不同规模的队列，因此需要 select 一定比例的唯一 ID。任何援助将不胜感激。

Answer 1

这是一种方法：

data %>% group_by(Cohort) %>%
  filter(ID %in% sample(unique(ID), ceiling(0.4*length(unique(ID)))))

这将 return 所有包含随机采样 ID 的行。换句话说，我假设您的每一行都有测量值，并且您想要每个采样 ID 的所有测量值。（如果您只想为每个采样 ID 编辑一行 return，那么@bramtayl 的答案就可以做到这一点。）

例如：

data = data.frame(rbind(data, data), value=rnorm(2*nrow(data)))

data %>% group_by(Cohort) %>%
  filter(ID %in% sample(unique(ID), ceiling(0.4*length(unique(ID)))))

   Cohort     ID       value
    (int) (fctr)       (dbl)
1       1    a1  -0.92370760
2       1     a2 -0.37230655
3       1     a3 -1.27037502
4       1     a7 -0.34545295
5       2    b14 -2.08205561
6       2    b17  0.31393998
7       2    b18 -0.02250819
8       2    b19  0.53065857
9       2    b20  0.03924414
10      1    a1  -0.08275011
11      1     a2 -0.10036822
12      1     a3  1.42397042
13      1     a7 -0.35203237
14      2    b14  0.30422865
15      2    b17 -1.82008014
16      2    b18  1.67548568
17      2    b19  0.74324596
18      2    b20  0.27725794

Answer 2

为什么不

library(dplyr)

data %>%
  select(ID, Cohort) %>%
  distinct %>%
  group_by(Cohort) %>%
  sample_frac(0.4) %>%
  left_join(data)

R：按分组变量划分的唯一 ID 的分层随机样本比例

R: Stratified random sample proportion of unique ID's by grouping variable

random

r

sampling

dplyr