为什么 Tesseract 无法识别包含在较大盒子中的文本?

Why can't Tesseract identify text that's contained in a larger box?

我正在尝试从包含在较宽框中的图像中提取一些非常明显的文本:

但是,Tesseract 未能成功从中提取文本。如果我删除图像中的框,它就可以正常工作:

请注意,当我将字体更改为更常见的字体(例如 Arial)时,这两个图像都可以正常工作。但是,我确实需要让它与当前字体一起使用 (Impact)。

如能提供有关如何让它发挥作用的任何帮助,我们将不胜感激!

下面是我当前的代码:

import cv2
import pytesseract

pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

img = cv2.imread('without_box.png') #https://i.stack.imgur.com/vrJvd.png
img_text = pytesseract.image_to_string(img)
print('without_box : ', img_text) #returns "without_box :  TEXT"

img = cv2.imread('with_box.png') #https://i.stack.imgur.com/xNEdR.png
img_text = pytesseract.image_to_string(img)
print('with_box : ', img_text) #returns "with_box : "

对于呈现的图片类型1,您可以自动裁剪包含文本的白色部分,并且运行 pytesseract:

import cv2
import pytesseract


def crop_and_detect(image):
    thr = cv2.threshold(image, 128, 255, cv2.THRESH_BINARY)[1]
    x, y, w, h = cv2.boundingRect(thr)
    return pytesseract.image_to_string(image[y:y+h, x:x+w])


for img_file in ['vrJvd.png', 'xNEdR.png']:
    img = cv2.imread(img_file, cv2.IMREAD_GRAYSCALE)
    print(img_file, crop_and_detect(img).replace('\f', ''))
    # vrJvd.png TEXT
    #
    # xNEdR.png TEXT
    #
----------------------------------------
System information
----------------------------------------
Platform:      Windows-10-10.0.19041-SP0
Python:        3.9.1
PyCharm:       2021.1.2
OpenCV:        4.5.2
pytesseract:   5.0.0-alpha.20201127
----------------------------------------

1 如果您有图像处理相关的问题,请提供可能输入图像的代表性集合。否则,您可能会为您提供的一两个输入图像获得合适的解决方案,但是在您的实际数据集上测试该解决方案时,您会发现“它不起作用”,并且可能 post(很多的)后续问题,这本来可以首先避免的。