Tesseract-OCR (3.02) 识别准确率和速度

Tesseract-OCR (3.02) recognition accuracy and speed

我有一组非常小的图片 (w:70-100 ; h:12-20),如下图:

在那些图片中,只有组成员的昵称。我想从简单的图像中读取文本,它们都有一个背景,只有昵称不同。所以,我对那张图片做了什么:

我正在使用下面的代码从第二张图片中获取文本:

tesseract::TessBaseAPI ocr;
ocr.Init(NULL, "eng");
PIX* pix = pixRead("D:\image.png");
ocr.SetImage(pix);
std::string result = ocr.GetUTF8Text();

我有两个问题:

  1. ocr.GetUTF8Text(); 运行缓慢:650-750 毫秒。图片很小,怎么能用那么久?
  2. 从上图中我得到的结果如下:"iwillkillsm"、"iwillkillsel" 等。该图像很简单,我相信 tesseract 大师能够以 100% 的准确度识别它。

    我应该如何处理 image/code 或者我应该阅读(以及在哪里)有关 tesseract-ocr(关于文本速度和质量识别的内容)来解决这些问题?

这听起来可能很奇怪,但当我增加图像的尺寸时,我总是对 tesseract 很幸运。该图像对我来说看起来 "worse",但 tesseract 运行速度更快并且准确性更高。

然而,在开始变得更糟的结果之前,您可以制作多大的图像是有限制的 :) 我想我记得过去拍摄 600 像素。不过你还是得试试看。