将数据集分成回归组和 R 中的控制组
separate a dataset into a regression group and a control group in R
这更有可能是设计问题。如果我计划 运行 回归 Y = X1 + X2 + X3 + X4 + X5,并且我的数据中有 X1 到 X10 以及 Y。将数据集分成回归样本和对照组的最佳方法是什么,这样我就可以 运行 对回归样本进行回归并使用对照组验证我的模型?我应该只创建一个包含随机数的列并将它们分开吗?谢谢。
如果你有一个名为 df 的数据框,其中有一堆行和上面的列,你可以按如下方式对 n 行(本例中为 67%)进行采样,并创建样本组和对照组:
x <- sample(nrow(df), 0.67*nrow(df))
sampledf <- df[x, ]
controldf <- df[-x, ]
如果您想重新排列行号,可以像这样分配新的连续行号:
row.names(sampledf) <- seq(1:nrow(sampled))
row.names(controldf) <- seq(1:nrow(controldf))
这更有可能是设计问题。如果我计划 运行 回归 Y = X1 + X2 + X3 + X4 + X5,并且我的数据中有 X1 到 X10 以及 Y。将数据集分成回归样本和对照组的最佳方法是什么,这样我就可以 运行 对回归样本进行回归并使用对照组验证我的模型?我应该只创建一个包含随机数的列并将它们分开吗?谢谢。
如果你有一个名为 df 的数据框,其中有一堆行和上面的列,你可以按如下方式对 n 行(本例中为 67%)进行采样,并创建样本组和对照组:
x <- sample(nrow(df), 0.67*nrow(df))
sampledf <- df[x, ]
controldf <- df[-x, ]
如果您想重新排列行号,可以像这样分配新的连续行号:
row.names(sampledf) <- seq(1:nrow(sampled))
row.names(controldf) <- seq(1:nrow(controldf))