在数据表中选择一个均匀分布的样本
Pick a uniform distributed sample in a datatable
假设我有一个如下所示的示例数据集:
df = data.table(id = 1:100,group=rep(c('a','b','c','d'),25))
我想在 x 个非重叠样本中从这个集合中获取 80 个观察值。重要的特征是每个样本在每个组中的分布必须是均匀的。
例如:
x=20 will give a first sample of
1 a
5 b
15 c
28 d
这是一个非常方便的示例,但它也必须适用于不太方便的情况(例如 x=7 时)。
我的第一次尝试是使用 split,像这样:
df_split = split(df, as.numeric(as.factor(df$id)) %% 7)
这就是我想要的,只是它不是从每个组中统一选择!
如果我没看错的话,这可能就是你要找的:
df = data.frame(id = 1:100,group=rep(c('a','b','c','d'),25))
repeat {
mysample <- sample(df$id, size=4, replace=TRUE) # takes sample
test <- (sum(duplicated(df[mysample, ]$group)) == 0) # true if no duplicates
if (test == 1)
break
}
mysample
df[mysample, ] # retrieves data
如果我理解正确的话,由于您正在寻找 7 组 80 个样本,您可能希望运行将其作为一个循环:
dt <- data.table(id = 1:100,group=rep(c('a','b','c','d'),25))
newmat <- data.frame(Index = 1:80)
for(i in 1:7){
k <- NULL
for(j in unique(dt$group)){
dt.sub <- dt[group == j]
samps <- sample_n(dt.sub, 20, replace = F)
k <- c(k,samps$id)
}
newmat <- cbind(newmat, k)
}
colnames(newmat) <- c("Index", paste0("k",1:7))
假设我有一个如下所示的示例数据集:
df = data.table(id = 1:100,group=rep(c('a','b','c','d'),25))
我想在 x 个非重叠样本中从这个集合中获取 80 个观察值。重要的特征是每个样本在每个组中的分布必须是均匀的。
例如:
x=20 will give a first sample of
1 a
5 b
15 c
28 d
这是一个非常方便的示例,但它也必须适用于不太方便的情况(例如 x=7 时)。
我的第一次尝试是使用 split,像这样:
df_split = split(df, as.numeric(as.factor(df$id)) %% 7)
这就是我想要的,只是它不是从每个组中统一选择!
如果我没看错的话,这可能就是你要找的:
df = data.frame(id = 1:100,group=rep(c('a','b','c','d'),25))
repeat {
mysample <- sample(df$id, size=4, replace=TRUE) # takes sample
test <- (sum(duplicated(df[mysample, ]$group)) == 0) # true if no duplicates
if (test == 1)
break
}
mysample
df[mysample, ] # retrieves data
如果我理解正确的话,由于您正在寻找 7 组 80 个样本,您可能希望运行将其作为一个循环:
dt <- data.table(id = 1:100,group=rep(c('a','b','c','d'),25))
newmat <- data.frame(Index = 1:80)
for(i in 1:7){
k <- NULL
for(j in unique(dt$group)){
dt.sub <- dt[group == j]
samps <- sample_n(dt.sub, 20, replace = F)
k <- c(k,samps$id)
}
newmat <- cbind(newmat, k)
}
colnames(newmat) <- c("Index", paste0("k",1:7))