如何从头开始为机器学习创建和格式化图像数据集?

How to create and format an image dataset from scratch for machine learning?

我只使用过 .csv 格式的 ML。我也使用过图像格式,但只使用预制图像集(MNIST 等)。如果我要从头开始创建图像集,class 标签通常是如何格式化的?我是否必须手动为 jpeg 图像添加标题?

最好的,杰里米

我使用过格式如下的图像数据集:

  1. Class Names as Folders : 顾名思义,属于特定 class 的图像被填充到特定文件夹中,文件夹名称代表 class.

例如,对于 class验证猫与狗

的数据集
-Dataset/
--Cats/
---all cat images here
--Dogs/
---all dogs images here
  1. 单个文件夹 + 文本文件:所有图像都转储到一个文件夹中 - 显然每个图像文件都有一个唯一的名称。 image_name : class 的键值对可以作为行存储在 csv 文件中。

例如

-Dataset/
--all images heree
--imagename_class.csv 
  1. 文件名中带有 Class 的单个文件夹:所有图像都可以放在一个文件夹中,图像的名称具有 class 标签和一些不断变化的索引值。

例如

-Dataset/
--cat_1.jpg
--cat_2.jpg
--dog_1.jpg
--cat_3.jpg
--... 

希望对您有所帮助!