Python 字形匹配
Glyph matching on Python
我有以下项目规格:
给定一个包含大约 2000 个二进制图像的数据集(我们称之为 test dataset
),其中每个图像对应一个字形,我想在不同的数据集上找到每个测试图像的最佳匹配(让我们称它为 reference dataset
),它有大约 6000 个独特的字形。
以下是一些字形示例:
因此,对于 test dataset
中的每张图像,我想在 reference dataset
中找到最佳匹配。
两组图像的尺寸略有不同,尽管这只是填充问题。并且 test dataset
中包含的所有图像字形也在 reference dataset
.
中
我的第一个想法是在 TensorFlow 中使用 CNN,但考虑到我有大量 类(大约 6000)存在很大的内存问题。此外,考虑到两个数据集上的字形非常相似,使用 CNN 有点矫枉过正。
那么在 Python 中不使用神经网络解决这个问题的最直接方法是什么?
就在脑海中。
1. 为测试和参考图像生成特征。尝试使用 SIFT 功能。
2. 您现在可以对图像进行聚类,因为您将拥有图像的矢量表示。尝试使用带余弦距离的 k 均值
3. 现在给定一个测试图像集群测试图像并找到它所属的集群。将测试图像与集群中的图像进行比较。
如有不明之处请告诉我。
我有以下项目规格:
给定一个包含大约 2000 个二进制图像的数据集(我们称之为 test dataset
),其中每个图像对应一个字形,我想在不同的数据集上找到每个测试图像的最佳匹配(让我们称它为 reference dataset
),它有大约 6000 个独特的字形。
以下是一些字形示例:
因此,对于 test dataset
中的每张图像,我想在 reference dataset
中找到最佳匹配。
两组图像的尺寸略有不同,尽管这只是填充问题。并且 test dataset
中包含的所有图像字形也在 reference dataset
.
我的第一个想法是在 TensorFlow 中使用 CNN,但考虑到我有大量 类(大约 6000)存在很大的内存问题。此外,考虑到两个数据集上的字形非常相似,使用 CNN 有点矫枉过正。
那么在 Python 中不使用神经网络解决这个问题的最直接方法是什么?
就在脑海中。 1. 为测试和参考图像生成特征。尝试使用 SIFT 功能。 2. 您现在可以对图像进行聚类,因为您将拥有图像的矢量表示。尝试使用带余弦距离的 k 均值 3. 现在给定一个测试图像集群测试图像并找到它所属的集群。将测试图像与集群中的图像进行比较。
如有不明之处请告诉我。