如何使用 Tesseract 从银行支票中读取信息?

How to read information from bank cheque using Tesseract?

我有一张支票样本。我正在尝试阅读以下内容

a) 分行名称(即 Salwa 分行)

b) 多哈会议(即 2016 年 1 月 7 日)

c) 用这张支票付款 to/order

d) 里亚尔

e) 二维码

f) 支票号

我正在使用 Tesseract。因为我无法正确获取信息,所以我需要做些什么来获取相关信息。

或者任何其他 OCR SDK 都专门用于此目的。

凡是手写的,一律不予接受。您只有机会使用已知或相似的字体。在你的情况下,我会分析完整的 image/tiff,而不是遍历使用 Tesseract 创建的所有块。

使用 tesseract 很容易。

使用这个 .net 包装器效果很好。

https://www.nuget.org/packages/Tesseract/

示例可以在他的项目页面上找到。

在相同的情况下,您必须训练字体。您如何在这里阅读:

http://www.joyofdata.de/blog/a-guide-on-ocr-with-tesseract-3-03/

对于数字和符号(中间底部)是我在 google 为 tesseract 找到的经过训练的字体。

无法使用 tesseract 检测手写值。尽管用户字体有可能 train tesseract,但这对您的情况没有帮助,因为支票可能不是相同的笔迹。

但是,您仍然可以获得打印字符的值,例如分支名称、支票 no.s 等