如何构建自己的手写数字数据集

Question

我有一组数字图像，从 0 到 20，中间值为 classes(0,25 / 0,5 / 0,75)。每个数字都将定义为自己的 class。每个 class.

我有 22 张图片

这些图像将用于class化的卷积神经网络训练和测试。我不担心准确性，这只是一个概念证明，所以我意识到数据集太小，无法得出任何真正可靠的结果。就像我说的，它只是作为概念证明。

编辑： 根据@Kaveh 的建议，我查看了 ImageDataGenerator.flow_from_directory

据我所知，这用于使用数据扩充来增加数据集的大小。但是，我要问的是，既然我已将这些图像设置在不同的文件夹中（每个文件夹 22 张图像，每个文件夹构成 class），我该如何使用它们。我一直在加载一个构成数据集的文件（例如：mnist；通过 keras）。我从未使用过自己的数据，因此不知道下一步是什么。

Answer 1

如下所示组织您的目录

data_dir
-----train_dir
---------zero_dir
-------------first_zero_image.jpg
-------------sencond_zero_image,jpg
...
-------------twenty_second_zero_image.jpg
---------ones_dir
-------------first_ones_image.jpg
-------------second_one_image.jpg
...
-------------twenty_second_ones_image.jpg
......
         twenty_dir
-------------first_20_image.jpg
-------------seccond_20_image.jpg
...
-------------twenty_second_20_image.jpg
-----test_dir
--------zeros_dir
#  structure the test directory like the train directory and put
# your test images in it

现在您可以使用 Keras ImageDataGenerator.flow_from_directory 为 model.fit 提供数据了。

train_path=os.path.join(data_dir, train_dir)
from tensorflow.keras.preprocessing.image import ImageDataGenerator
gen=ImageDataGenerator(rescale=1/255, validation_split=.2)
train_gen=gen.flow_from_directory( train_path,
                                   target_size=(256, 256),
                                   color_mode="rgb",
                                   classes=None,
                                   class_mode="categorical",
                                   batch_size=32,
                                   shuffle=True,
                                   seed=123,    
                                   subset='training' )  
valid_gen=gen.flow_from_directory( train_path,
                                   target_size=(256, 256),
                                   color_mode="rgb",
                                   classes=None,
                                   class_mode="categorical",
                                   batch_size=32,                                   
                                   shuffle=False, 
                                   subset='validation' )
history=model.fit(train_gen, epochs=20, validation_data=valid_gen)

应该就可以了

如何构建自己的手写数字数据集

How do I build my own handwritten digits dataset

classification

machine-learning

dataset

tensorflow

tensorflow-datasets