在数据表中选择一个均匀分布的样本

Question

假设我有一个如下所示的示例数据集：

df = data.table(id = 1:100,group=rep(c('a','b','c','d'),25))

我想在 x 个非重叠样本中从这个集合中获取 80 个观察值。重要的特征是每个样本在每个组中的分布必须是均匀的。

例如：

x=20 will give a first sample of
1 a
5 b
15 c
28 d

这是一个非常方便的示例，但它也必须适用于不太方便的情况（例如 x=7 时）。

我的第一次尝试是使用 split，像这样：

df_split = split(df, as.numeric(as.factor(df$id)) %% 7)

这就是我想要的，只是它不是从每个组中统一选择！

Answer 1

如果我没看错的话，这可能就是你要找的：

df = data.frame(id = 1:100,group=rep(c('a','b','c','d'),25))

repeat {
  mysample <- sample(df$id, size=4, replace=TRUE)  # takes sample
  test     <- (sum(duplicated(df[mysample, ]$group)) == 0)  # true if no duplicates

  if (test == 1)
    break
}

mysample
df[mysample, ]  # retrieves data

Answer 2

如果我理解正确的话，由于您正在寻找 7 组 80 个样本，您可能希望运行将其作为一个循环：

dt <- data.table(id = 1:100,group=rep(c('a','b','c','d'),25))

newmat <- data.frame(Index = 1:80)
for(i in 1:7){
  k <- NULL
  for(j in unique(dt$group)){
    dt.sub <- dt[group == j]
    samps <- sample_n(dt.sub, 20, replace = F)
    k <- c(k,samps$id)
  }
  newmat <- cbind(newmat, k)
}

colnames(newmat) <- c("Index", paste0("k",1:7))

在数据表中选择一个均匀分布的样本

Pick a uniform distributed sample in a datatable

r

sample

data.table