为什么 Tesseract 使用此图像会失败并显示 "Empty page"?

Why does Tesseract fail with "Empty page" with this image?

我有以下截图:

我想从该图像中提取手稿字数,在本例中为 3.574(见下面的红色矩形)。

为此,我 运行 以下脚本:

magick screenshot.png -crop 33x20+2+83 screenshot-cropped.png
tesseract screenshot-cropped.png screenshot-ocred -l eng

第一行把有字数的地方剪下来存到screenshot-cropped.png里,像这样:

tesseract screenshot-cropped.png screenshot-ocred -l eng 应该识别字符并将它们保存为 screenshot-ocred.txt.

中的文本

但是,它会产生以下错误:

C:\usr\dp\ref\marcomm20_04_22_wordCounter>ocr.bat

C:\usr\dp\ref\marcomm20_04_22_wordCounter>magick screenshot.png -crop 33x20+2+83 screenshot-cropped.png

C:\usr\dp\ref\marcomm20_04_22_wordCounter>tesseract screenshot-cropped.png screenshot-ocred -l eng
Tesseract Open Source OCR Engine v5.0.0-alpha.20200328 with Leptonica
Empty page!!
Empty page!!

我该如何解决,我。 e.让 Tesseract 识别 3.574 并将其保存在 screenshot-ocred.txt?

注意:所有这些 运行 都在 Windows 上。这是 magick --version 的输出:

C:\usr\dp\ref\marcomm20_04_22_wordCounter>magick --version
Version: ImageMagick 7.0.10-7 Q16 x64 2020-04-20 http://www.imagemagick.org
Copyright: Copyright (C) 1999-2018 ImageMagick Studio LLC
License: http://www.imagemagick.org/script/license.php
Visual C++: 180040629
Features: Cipher DPC Modules OpenCL OpenMP(2.0)
Delegates (built-in): bzlib cairo flif freetype gslib heic jng jp2 jpeg lcms lqr lzma openexr pangocairo png ps raw rsvg tiff webp xml zlib

--psm 7 添加到 Tesseract 调用解决了问题 (tesseract screenshot-cropped.png screenshot-ocred -l eng --psm 7)。