您 "count" 数据集大小是图像数量还是地面实况边界框数量？

Do you "count" the dataset size in number of images or number of ground truth bounding boxes?

我目前正在制作一个包含 1 class 的自定义数据集。我标记的图像在每个图像中包含几个这样的对象（在 30-70 之间）。因此，我想知道在评估数据集的大小时是否应该将每个图像中的每个对象都计为“1 个数据点”？

即：每张图像的对象越多，需要的图像越少？

这是一个检测问题，数据集的大小由图像数量和对象数量决定。没有理由选择两者之一，因为它们都是同等重要的数字。
如果你真的想定义 "size" 你可能必须从错误指标开始。通常用于对象检测的是 mIoU（并集平均交集）。此指标处于对象级别，因此它不关心您是否有 10 或 100 万张图像。

最后，可能是每张图片有很多对象可以让您使用较少数量的总图片，但这只能通过实验来证实。