使用 CBIR 和 OCR 进行图像比较

Image Comparisson using CBIR and OCR

正在进行从给定图像中检索内容并与存储库中的其他图像进行比较并列出匹配图像的项目。

正确的方法应该是什么才不会最终减慢搜索速度。

作为第一级过滤,我打算做的是使用任何图像查询(CBIR 技术)来检索与给定图像的模式相匹配的图像。 然后做OCR获取图片内容,做匹配校验

如果有更好的方法,请告诉我。

完成的步骤

软件 1. 超正方体光学字符识别 2. Image Magick - 用于图像清理 3. 文本清理脚本

  1. 使用Image Magick软件找出图像方向

    • Convert 包有一个使用 EXIF 数据查找图像方向的功能,这不是很有用。
    • 因为这张图片被旋转了三次 90 度,并且每个图片的 ocr 数据都与另一个进行了比较,以找到正确的方向。 (字数最多的图片获胜)
  2. OCRed 图像以获取文本并应用过滤以获取账单编号、日期和金额。

    • 成功后将详细信息存储在数据库中以供将来搜索
    • 失败时
      • 使用不同的滤镜创建了 10 张不同的图像(应用了灰度模式和锐化)
      • 对所有图片进行光学识别,从所有得到的数据中找出需要的数据。
  3. 保存的数据用于将来的搜索功能以消除重复