我可以在线性回归模型中应用交叉验证吗?
Can I apply Cross Validation in a Linear Regression model?
我有一个总共有 58 个样本的数据集。数据集有两列 "measured signals" 和 "people_in_area"。因此,我正在尝试使用 Scikit-learn 训练线性回归模型。目前,我将 75% 的数据集用于训练,25% 用于测试。但是,根据拆分前数据的顺序,我获得了不同的 R 平方值。
我认为由于数据集很小,根据拆分前数据的顺序,不同的值将保留为 x_test 和 y_test。因此,我正在考虑在我的线性回归模型上使用 "Cross-Validation" 来随机划分测试和训练数据几次,训练更多,并且能够测试更多,以这种方式获得更可靠的结果.这是正确的方法吗?
是的,使用交叉验证可以更好地估计模型性能。
然而,随机拆分(交叉验证)不适用于 time-series and/or 所有数据分布。
"final model" 不会比您对模型性能的估计更好。
我有一个总共有 58 个样本的数据集。数据集有两列 "measured signals" 和 "people_in_area"。因此,我正在尝试使用 Scikit-learn 训练线性回归模型。目前,我将 75% 的数据集用于训练,25% 用于测试。但是,根据拆分前数据的顺序,我获得了不同的 R 平方值。
我认为由于数据集很小,根据拆分前数据的顺序,不同的值将保留为 x_test 和 y_test。因此,我正在考虑在我的线性回归模型上使用 "Cross-Validation" 来随机划分测试和训练数据几次,训练更多,并且能够测试更多,以这种方式获得更可靠的结果.这是正确的方法吗?
是的,使用交叉验证可以更好地估计模型性能。
然而,随机拆分(交叉验证)不适用于 time-series and/or 所有数据分布。
"final model" 不会比您对模型性能的估计更好。