图像识别可以处理类，其中决定性的质量不是直接可见的吗？

Can Image Recognition deal with classes, where the deciding quality is not directly visible?

我有以下问题，不太确定它是否可以通过图像识别（和卷积神经网络）解决。

我有一个包含 40 万张图片的数据集，分为 5 个 classes。这些图片是应用程序的屏幕截图，根据他们收到的年龄分级将其放入 5 classes。

例如：我有200k标注为class0，表示适合所有年龄段（根据年龄分级）；我有 50k 图片标记为 class 1（适合 6 岁以上儿童）等等。

我想利用这些数据训练一个神经网络，它可以告诉我屏幕截图（以及相应的游戏）可能具有的年龄分级。

这是一个问题，可以通过图像识别来解决吗？

我查看了图像识别示例（主要是 Keras 教程），所有示例都处理了明显可见的问题（如 "does the image show a cat or a dog"）。浏览我的数据集后，我发现有些图片非常相似，尽管属于不同的 classes。

卷积神经网络（或任何其他类型的图像识别算法）能否处理 classes，其中决定因素不直接可见？这只是网络深度的问题吗？

非常感谢，如果有人能指出我在何处寻找更多信息的大致方向。

可以也不能。对于 CNN 要在没有上下文输入的情况下提供良好的结果，这意味着输入和输出之间必须存在一些相关性。因此，假设某些应用程序的设计与年龄分级相关，那么是的，这是可能的，否则不是，除非您为网络提供更多可使用的东西。

这实际上可以让你进行一个很酷的实验来检查自己，运行通过一些运行-of-the-mill CNN，如果它评估良好（通过交叉验证) 那么你可能已经证明存在相关性

（注意：如果模型测试不佳，这并不能证明相关性不存在，可能不太可能，但不能保证）

是的，原则上这是可以管理的。您要查找的输出层称为 softmax 层。它评估每个类的概率并选择最有可能的一个。

"not directly visible" 我想你的意思是 "not obvious to a human expert"。好吧，这正是机器学习发挥作用的地方。近年来图像分类中的算法 advanced quite a lot。然而，并不能保证成功。 NN 可以发现的变量之间需要一些真实相关性。

正如@mshlis 指出的那样：图像旁边的上下文可能会改善您的结果（即开发人员工作室、整个应用程序的大小、图形数据的大小，或任何可能预测年龄等级的指标）