如何在机器学习模型中使用 train.csv 、 test.csv 和 ground_truth.csv ？（交叉验证/python）

Question

到目前为止我只有一个数据集 (df.csv)。到目前为止，我对正常回归模型使用了 20% 的验证大小和 .train_test_split。

array = df.values
X = array[:,0:26]
Y = array[:,26]
validation_size = 0.20
seed = 7
X_train, X_validation, Y_train, Y_validation =
   cross_validation.train_test_split(X, Y,
   test_size=validation_size, random_state=seed)
num_folds = 10
num_instances = len(X_train)
seed = 7
scoring = 'mean_squared_error'

当我有三个独立的数据集（train.csv/test.csv/ground_truth.csv）时，我该如何处理？当然，一开始我用的是train.csv，然后是test.csv，最后是ground_truth。但是我应该如何在我的模型中实现这些不同的数据集呢？

Answer 1

当您执行交叉验证时，训练和测试数据本质上是相同的数据集，以不同的方式拆分以防止过度拟合。折叠数表示集合拆分的不同方式。

例如，5 折交叉验证将训练集分成 5 份，每次使用其中 4 份用于训练，1 份用于测试。因此，对于您的情况，您有以下选择：

要么只在训练集上执行交叉验证，然后检查测试集和地面实况（拟合只在训练集上完成，所以如果正确完成测试和地面实况的准确性应该是相似的）或结合训练和测试以获得更大且可能更具代表性的数据集，然后检查基本事实。

如何在机器学习模型中使用 train.csv 、 test.csv 和 ground_truth.csv ？（交叉验证/python）

How to use a train.csv , test.csv and ground_truth.csv in a machine learning model? (cross validation/ python)

python

numpy

machine-learning

scipy

cross-validation

如何在机器学习模型中使用 train.csv 、 test.csv 和 ground_truth.csv ？ （交叉验证/python）

How to use a train.csv , test.csv and ground_truth.csv in a machine learning model? (cross validation/ python)

python

numpy

machine-learning

scipy

cross-validation

如何在机器学习模型中使用 train.csv 、 test.csv 和 ground_truth.csv ？（交叉验证/python）