使用 PyTorch 将训练数据集拆分为 CIFAR10 的训练集和验证集后，如何扩充数据？

Question

在PyTorch中对CIFAR10进行分类时，一般有50000个训练样本和10000个测试样本。但是，如果我需要创建一个验证集，我可以将训练集分成 40000 个训练样本和 10000 个验证样本。我使用了以下代码

train_transform = transforms.Compose([transforms.ToTensor(),transforms.Normalize((0.5,0.5,0.5),(0.5,0.5,0.5))])
test_transform = transforms.Compose([transforms.ToTensor(),transforms.Normalize((0.5,0.5,0.5),(0.5,0.5,0.5))])

cifar_train_L = CIFAR10('./data',download=True, train= True, transform = train_transform)
cifar_test = CIFAR10('./data',download=True, train = False, transform= test_transform) 

train_size = int(0.8*len(cifar_training))
val_size = len(cifar_training) - train_size
cifar_train, cifar_val = torch.utils.data.random_split(cifar_train_L,[train_size,val_size])

train_dataloader = torch.utils.data.DataLoader(cifar_train, batch_size= BATCH_SIZE, shuffle= True, num_workers=2)
test_dataloader = torch.utils.data.DataLoader(cifar_test,batch_size= BATCH_SIZE, shuffle= True, num_workers= 2)
val_dataloader = torch.utils.data.DataLoader(cifar_val,batch_size= BATCH_SIZE, shuffle= True, num_workers= 2)

通常情况下，在PyTorch中扩充数据时，会使用不同的扩充过程 transforms.Compose 函数（即 transforms.RandomHorizontalFlip()）。但是，如果我在拆分训练集和验证集之前使用这些扩充过程，扩充后的数据也会包含在验证集中。有什么办法可以解决这个问题吗？

In short, I want to manually split the training dataset into train and validation set as well as I want to use the data augmentation technique into the new training set.

Answer 1

您可以手动覆盖数据集的transforms：

cifar_train, cifar_val = torch.utils.data.random_split(cifar_train_L,[train_size,val_size])
cifar_val.transforms = test_transform

使用 PyTorch 将训练数据集拆分为 CIFAR10 的训练集和验证集后，如何扩充数据？

How do I augment data after spliting traininng datset into train and validation set for CIFAR10 using PyTorch?

deep-learning

torch

conv-neural-network

pytorch

data-augmentation