如何在机器学习模型中使用 train.csv 、 test.csv 和 ground_truth.csv ? (交叉验证/python)

How to use a train.csv , test.csv and ground_truth.csv in a machine learning model? (cross validation/ python)

到目前为止我只有一个数据集 (df.csv)。到目前为止,我对正常回归模型使用了 20% 的验证大小和 .train_test_split

array = df.values
X = array[:,0:26]
Y = array[:,26]
validation_size = 0.20
seed = 7
X_train, X_validation, Y_train, Y_validation =
   cross_validation.train_test_split(X, Y,
   test_size=validation_size, random_state=seed)
num_folds = 10
num_instances = len(X_train)
seed = 7
scoring = 'mean_squared_error'

当我有三个独立的数据集(train.csv/test.csv/ground_truth.csv)时,我该如何处理?当然,一开始我用的是train.csv,然后是test.csv,最后是ground_truth。但是我应该如何在我的模型中实现这些不同的数据集呢?

当您执行交叉验证时,训练和测试数据本质上是相同的数据集,以不同的方式拆分以防止过度拟合。折叠数表示集合拆分的不同方式。

例如,5 折交叉验证将训练集分成 5 份,每次使用其中 4 份用于训练,1 份用于测试。因此,对于您的情况,您有以下选择:

要么只在训练集上执行交叉验证,然后检查测试集和地面实况(拟合只在训练集上完成,所以如果正确完成测试和地面实况的准确性应该是相似的)或结合训练和测试以获得更大且可能更具代表性的数据集,然后检查基本事实。