Tesseract边界框距离计算

Question

我正在尝试应用 tesseract OCR 从图像中提取文本。起初，我尝试了 image_to_data，它返回了文本，但在某些情况下，它给出了错误的字符。然后我尝试了 image_to_boxes ，它非常正确地返回了每个字符。但我的问题是，我需要连接这些字符来组成完整的单词。谁能向我建议我该怎么做？我的意思是说我需要从这本词典中造出三个词，例如 "~Phone" , ":", "+88-02-5042248-50".

最后，谁能解释一下这本词典中的左、下、右和上是什么意思？我可以使用它们来查找两个字符之间的距离吗？

Answer 1

import cv2
import numpy as np
import pytesseract
# Load image
image = cv2.imread('muTYX.jpg')

pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
text = pytesseract.image_to_string(image, lang = 'eng', config='--psm 7 --oem 3 ')

text = (text.split('\n'))
print(text[0].split(' '))

输出：['Phone'、':'、'+88-02-55042248-50']

而 image_to_boxes 的字典是这样的：

#(index of character, start x-axis, start y-axis, end x-axis, end y-axis)
P 53 50 64 76 0 
h 63 50 75 77 0
...

以下网站有更多信息：https://nanonets.com/blog/ocr-with-tesseract/

Tesseract边界框距离计算

Tesseract bounding box distance calculation

python

ocr

tesseract

python-tesseract