将多张图像输入 CoreML 图像分类模型 (swift)

Feed multiple images to CoreML image classification model (swift)

我知道如何使用 CoreML 库来训练模型并使用它。但是,我想知道是否可以为模型提供不止一张图像,以便它能够更准确地识别它。

这样做的原因是因为我正在尝试构建一个对组织学幻灯片进行分类的应用程序,但是,其中许多看起来非常相似,所以我想也许我可以以不同的放大倍数提供模型图像,以便进行识别。可能吗?

谢谢, 迈赫迪

是的,这是一个常用的技巧。您可以为 Core ML 提供不同比例的图像,或者使用来自同一较大图像的不同裁剪。

一种典型的方法是取 4 个角裁剪和 1 个中心裁剪,然后水平翻转它们,因此总共有 10 张图像。然后将它们作为批次提供给 Core ML。 (也许在你的情况下垂直翻转作物是有意义的。)

要获得最终预测,请取所有图像的预测概率的平均值。

请注意,为了使用不同尺寸的图像,模型必须配置为支持 "size flexibility"。而且它还必须在不同尺寸的图像上进行训练才能获得好的结果。