将数据拆分为训练并在标签上分层测试

Split data into train and test stratified on label

我有一个包含两列(数字和字母)的数据框 (df)。请参阅可重现的示例:

Numbers<- c(2.370653,3.811336,5.255120, 6.501197,7.848100,9.343938,10.843479,12.164387,13.476807,14.922644,16.419281,17.664224,19.112835,20.660367,21.962732,23.213675)
Letters<-c("a","b","c","c","d","a","b","d","d","a","a","c","b","c","c","c")
df <- as.data.frame(cbind(Numbers,Letters))

我希望随机将数据框分成两个相等大小的日期框,并且每个日期框具有相同数量的字母。我找到了 stratified() 函数,它对每个字母的 50% 进行采样:

test <- stratified(df, "Letters", .5)

但这与将数据帧拆分为两个数据帧并不完全相同。我不希望两个数据框中的 df$Numbers 有任何相同的值——只是每个数据框中的 df$Letters 的数量相同。你能帮帮我吗?

rsample 尝试这种接近您想要的方法。 @AllanCameron 的评论是完全有效的,你可以将三个分成两个 1.5 每个样本:

library(rsample)
#Code
set.seed(123)
split_strat <- initial_split(df, prop = 0.5,
                             strata = 'Letters')
train_strat <- training(split_strat)
test_strat <- testing(split_strat)

检查比例:

table(train_strat$Letters)

a b c d 
2 2 3 2 

table(test_strat$Letters)

a b c d 
2 1 3 1