为什么 Tesseract 无法识别包含在较大盒子中的文本?
Why can't Tesseract identify text that's contained in a larger box?
我正在尝试从包含在较宽框中的图像中提取一些非常明显的文本:
但是,Tesseract 未能成功从中提取文本。如果我删除图像中的框,它就可以正常工作:
请注意,当我将字体更改为更常见的字体(例如 Arial)时,这两个图像都可以正常工作。但是,我确实需要让它与当前字体一起使用 (Impact)。
如能提供有关如何让它发挥作用的任何帮助,我们将不胜感激!
下面是我当前的代码:
import cv2
import pytesseract
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
img = cv2.imread('without_box.png') #https://i.stack.imgur.com/vrJvd.png
img_text = pytesseract.image_to_string(img)
print('without_box : ', img_text) #returns "without_box : TEXT"
img = cv2.imread('with_box.png') #https://i.stack.imgur.com/xNEdR.png
img_text = pytesseract.image_to_string(img)
print('with_box : ', img_text) #returns "with_box : "
对于呈现的图片类型1,您可以自动裁剪包含文本的白色部分,并且运行 pytesseract
:
import cv2
import pytesseract
def crop_and_detect(image):
thr = cv2.threshold(image, 128, 255, cv2.THRESH_BINARY)[1]
x, y, w, h = cv2.boundingRect(thr)
return pytesseract.image_to_string(image[y:y+h, x:x+w])
for img_file in ['vrJvd.png', 'xNEdR.png']:
img = cv2.imread(img_file, cv2.IMREAD_GRAYSCALE)
print(img_file, crop_and_detect(img).replace('\f', ''))
# vrJvd.png TEXT
#
# xNEdR.png TEXT
#
----------------------------------------
System information
----------------------------------------
Platform: Windows-10-10.0.19041-SP0
Python: 3.9.1
PyCharm: 2021.1.2
OpenCV: 4.5.2
pytesseract: 5.0.0-alpha.20201127
----------------------------------------
1 如果您有图像处理相关的问题,请提供可能输入图像的代表性集合。否则,您可能会为您提供的一两个输入图像获得合适的解决方案,但是在您的实际数据集上测试该解决方案时,您会发现“它不起作用”,并且可能 post(很多的)后续问题,这本来可以首先避免的。
我正在尝试从包含在较宽框中的图像中提取一些非常明显的文本:
但是,Tesseract 未能成功从中提取文本。如果我删除图像中的框,它就可以正常工作:
请注意,当我将字体更改为更常见的字体(例如 Arial)时,这两个图像都可以正常工作。但是,我确实需要让它与当前字体一起使用 (Impact)。
如能提供有关如何让它发挥作用的任何帮助,我们将不胜感激!
下面是我当前的代码:
import cv2
import pytesseract
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
img = cv2.imread('without_box.png') #https://i.stack.imgur.com/vrJvd.png
img_text = pytesseract.image_to_string(img)
print('without_box : ', img_text) #returns "without_box : TEXT"
img = cv2.imread('with_box.png') #https://i.stack.imgur.com/xNEdR.png
img_text = pytesseract.image_to_string(img)
print('with_box : ', img_text) #returns "with_box : "
对于呈现的图片类型1,您可以自动裁剪包含文本的白色部分,并且运行 pytesseract
:
import cv2
import pytesseract
def crop_and_detect(image):
thr = cv2.threshold(image, 128, 255, cv2.THRESH_BINARY)[1]
x, y, w, h = cv2.boundingRect(thr)
return pytesseract.image_to_string(image[y:y+h, x:x+w])
for img_file in ['vrJvd.png', 'xNEdR.png']:
img = cv2.imread(img_file, cv2.IMREAD_GRAYSCALE)
print(img_file, crop_and_detect(img).replace('\f', ''))
# vrJvd.png TEXT
#
# xNEdR.png TEXT
#
----------------------------------------
System information
----------------------------------------
Platform: Windows-10-10.0.19041-SP0
Python: 3.9.1
PyCharm: 2021.1.2
OpenCV: 4.5.2
pytesseract: 5.0.0-alpha.20201127
----------------------------------------
1 如果您有图像处理相关的问题,请提供可能输入图像的代表性集合。否则,您可能会为您提供的一两个输入图像获得合适的解决方案,但是在您的实际数据集上测试该解决方案时,您会发现“它不起作用”,并且可能 post(很多的)后续问题,这本来可以首先避免的。