摆脱 DeepMNIST 类网络中用于 TensorFlow 中彩色图像分类的 softmax 饱和度

Getting rid of softmax saturation in DeepMNIST-like net for colour-images classification in TensorFlow

我有一个用于分类的数据集,它由大小为 8000x(32x32x3 图像)的训练和大小为 2000x(相同大小的图像)的测试组成。
我正在做一个非常简单的任务来区分车辆和背景。我使用 cross_entropy 作为成本函数。

我使用的网络与 DeepMNIST 中使用的网络几乎相同,除了第一个过滤器的大小为 3x... 而不是 1x... 因为它是彩色图像并且输出具有尺寸二,因为只有两个 类 :车辆或非车辆。 看到这个相对简单的任务的结果让我问自己几个问题:

-首先,如果我没有使用足够大的批量大小(>200),我几乎每次都在两组上以 62%(局部最优)的精度卡住,这不足以满足我的需要

-其次,每当我使用具有正确批量大小和学习率的正确优化器 Adam 时,我都会达到 92%,但输出总是非常令人不安,如 [0.999999999 0.000000000001]。

这不应该发生,因为任务很难。
因此,当我完全使用卷积来创建热图时,由于饱和度,几乎所有地方都得到 1.000001。
我究竟做错了什么 ?你认为美白能解决问题吗?批量归一化?还有别的吗?我面对的是什么?

这是过度拟合的迹象。如果您使用足够大的模型在小数据集上训练足够长的时间,最终您的置信度会饱和到 0 和 1。因此,防止过度拟合的相同技术(正则化惩罚、dropout、提前停止、数据增强)将对此有所帮助。

对于像这样的小型数据集,我的第一步是使用噪声损坏的示例来扩充数据集。 IE,对于您的示例,我将添加带有原始标签的 800k 噪声损坏示例,并在这些示例上进行训练。