如何最好地处理图像分类中的 "None of the above"？

How best to deal with "None of the above" in Image Classification?

这似乎是一个基本问题，你们中的一些人必须对此发表意见。我有一个用 CNTK 实现的图像 classifier，有 48 个 classes。如果图像与 48 classes 中的任何一个都不匹配，那么我想能够得出结论，它不在这 48 个图像类型中。我最初的想法很简单，如果最终 Softmax 层的最高输出很低，我就可以得出测试图像与 none 匹配良好的结论。虽然我偶尔会看到这种情况发生，但在大多数测试中，Softmax 在处理 'unknown image type' 时仍然会产生非常高（且错误）的结果。但也许我的网络是 'over fit'，如果不是，我最初的想法会很好。你怎么看？有什么方法可以定义第 49 个 class 称为 'none-of-the-above'?

我同意你的看法，这是一个关键问题，但我也不知道该领域有多少工作。

Zhang and LeCun 最近发表了一篇论文，专门解决了图像 class 化的问题。他们使用大量未标记的数据来创建额外的 "none of the above" class。但要注意的是，在某些情况下，他们未标记的数据并非完全未标记，并且他们有办法删除 "unlabelled" 实际上在其标记的 class 中的图像。话虽如此，作者报告说，除了解决 "none of the above" 问题外，他们甚至在测试集上也看到了性能提升。

至于拟合post-hoc，仅通过查看softmax的输出，我无法提供任何指示。

您确实有这两个选项——对后验概率（softmax 值）进行阈值化，并添加垃圾 class。

在我的领域（演讲），这两种方法各有所长：

如果 "none of the above" 输入与 "above" 具有相同的性质（例如非语法输入），则阈值处理工作正常。请注意，class 的后验概率等于 1 减去选择此 class 的错误率估计值。拒绝后验概率 < 50% 的任何事情都将拒绝所有你错的可能性比对的可能性大的情况。只要您的 none-of-the-of-the-above classes 具有相似的性质，估计可能足够准确，使他们也正确。

如果 "none of the above" 输入具有相似的性质，但您的 classes 数量非常少（例如 10 位数字），或者如果输入具有完全不同的性质（例如关门声或有人咳嗽），阈值处理通常会失败。然后，可以训练 "garbage model." 根据我们的经验，包含正确 class 的训练数据是可以的。现在 none-of-the-above class 也可能匹配正确的 class。但只要 none-of-the-above class 没有过度训练就没关系——它的分布会更平坦，因此即使它匹配已知的 class，它将以较低的分数匹配它，因此不会赢得实际已知的 class' softmax 输出。

最后，我会同时使用两者。绝对使用阈值（捕捉系统可以排除的情况）和使用垃圾模型，我会根据你拥有的任何东西对其进行训练。我希望在训练中包含正确的示例不会造成伤害，即使它是您拥有的唯一数据（请检查 Anton 发布的论文是否也适用于图像）。尝试合成数据也可能有意义，例如通过随机组合来自不同图像的补丁。

如何最好地处理图像分类中的 "None of the above"？

How best to deal with "None of the above" in Image Classification?

classification

softmax

cntk