在多个数据集上训练深度学习模型时,连接所有数据集并打乱它更好,还是按顺序训练数据集更好?

When training a Deep learning model on multiple datasets, is it better concatenating all datasets and shuffling it, or train datasets sequentially?

所以假设我有数据集 A、B 和 C 来训练模型。我当前的解决方案从 A 中随机抽取批次,然后从 B 中抽取,然后从 C 中抽取。我想知道是否连接所有数据集并改组以便训练更加随机会改善结果

正如您在 中指出的那样,数据集中的样本来自略有不同的“分布”(例如,真实图像与合成图像)。在这种情况下,最好从所有数据集 中为每个批次 随机采样点,而不是按顺序遍历不同的数据集。