将数据集分成回归组和 R 中的控制组

Question

这更有可能是设计问题。如果我计划运行回归 Y = X1 + X2 + X3 + X4 + X5，并且我的数据中有 X1 到 X10 以及 Y。将数据集分成回归样本和对照组的最佳方法是什么，这样我就可以运行对回归样本进行回归并使用对照组验证我的模型？我应该只创建一个包含随机数的列并将它们分开吗？谢谢。

Answer 1

如果你有一个名为 df 的数据框，其中有一堆行和上面的列，你可以按如下方式对 n 行（本例中为 67%）进行采样，并创建样本组和对照组：

x <- sample(nrow(df), 0.67*nrow(df))
sampledf <- df[x, ]
controldf <- df[-x, ]

如果您想重新排列行号，可以像这样分配新的连续行号：

row.names(sampledf) <- seq(1:nrow(sampled))
row.names(controldf) <- seq(1:nrow(controldf))

将数据集分成回归组和 R 中的控制组

separate a dataset into a regression group and a control group in R

controls

regression

r

bigdata

logistic-regression