Python 字形匹配

Glyph matching on Python

我有以下项目规格：

给定一个包含大约 2000 个二进制图像的数据集（我们称之为 test dataset），其中每个图像对应一个字形，我想在不同的数据集上找到每个测试图像的最佳匹配（让我们称它为 reference dataset)，它有大约 6000 个独特的字形。

以下是一些字形示例：

因此，对于 test dataset 中的每张图像，我想在 reference dataset 中找到最佳匹配。

两组图像的尺寸略有不同，尽管这只是填充问题。并且 test dataset 中包含的所有图像字形也在 reference dataset.

中

我的第一个想法是在 TensorFlow 中使用 CNN，但考虑到我有大量类（大约 6000）存在很大的内存问题。此外，考虑到两个数据集上的字形非常相似，使用 CNN 有点矫枉过正。

那么在 Python 中不使用神经网络解决这个问题的最直接方法是什么？

就在脑海中。 1. 为测试和参考图像生成特征。尝试使用 SIFT 功能。 2. 您现在可以对图像进行聚类，因为您将拥有图像的矢量表示。尝试使用带余弦距离的 k 均值 3. 现在给定一个测试图像集群测试图像并找到它所属的集群。将测试图像与集群中的图像进行比较。

如有不明之处请告诉我。