从 PAN 卡读取文本

To read the text from PAN Card

我有从 PAN 卡读取文本的用例。理想情况下,应用程序应该有扫描 PAN 卡的屏幕,并且应该从那里提取文本。提取的文本将自动填充到其他屏幕上。

我已经阅读了有关 tesseract npm 模块的信息,但仍然不知道从哪里开始,因为互联网上没有可用于此用例的竞争博客。还尝试了 npm 模块 - okrabyte,这没有给出 100% 的结果。需要任何指导或帮助。

我也尝试了 AWS Textract 服务。这无助于解析 PAN CARD,因为提取的结果完全不同。

您需要使用 OCR 来实现此目的。有多种选择可以做到这一点。 Tesseract 是开源的。我希望 this 博客能帮助您开始在 nodejs 上使用 tesseract。

您也可以使用来自不同云提供商的 OCR api 来实现这一点。示例:Microsoft Cognitive Services Vision API、Abbyy Cloud 等

此外,提高图像质量有助于更准确地提取文本。就个人而言,我发现 200 dpi 图像与 600 dpi 图像之间存在很大差异。

希望对您有所帮助!