training_test 拆分或原始数据集后引导?
Bootstrapping after training_test split or original dataset?
我的数据集包含 1000 个集合,我将其用于分类问题。我使用 LR 和 SVM 作为机器学习算法。我想知道我是否应该使用来自训练集的 Bootstrapping 然后应用 LR & SVM 或使用来自原始数据集的 Bootstrapping?当我查看准确率分数时,我不应该使用来自原始数据集的引导。
从原始数据集引导违背了拥有两个不同数据集的目的 (train/test)。您总是在训练数据集上训练模型并在测试数据集上计算准确率或另一个分数。
如果您 bootstrap 来自原始数据集,您将在整个数据集(的一个子集)上训练您的模型,其中将包括测试数据集的一部分,因此您的结果指标(即您将根据测试数据集进行计算)将会有偏差,因为您在 test 数据集的一部分上训练了模型。
我的数据集包含 1000 个集合,我将其用于分类问题。我使用 LR 和 SVM 作为机器学习算法。我想知道我是否应该使用来自训练集的 Bootstrapping 然后应用 LR & SVM 或使用来自原始数据集的 Bootstrapping?当我查看准确率分数时,我不应该使用来自原始数据集的引导。
从原始数据集引导违背了拥有两个不同数据集的目的 (train/test)。您总是在训练数据集上训练模型并在测试数据集上计算准确率或另一个分数。
如果您 bootstrap 来自原始数据集,您将在整个数据集(的一个子集)上训练您的模型,其中将包括测试数据集的一部分,因此您的结果指标(即您将根据测试数据集进行计算)将会有偏差,因为您在 test 数据集的一部分上训练了模型。