Tesseract边界框距离计算

Tesseract bounding box distance calculation

我正在尝试应用 tesseract OCR 从图像中提取文本。起初,我尝试了 image_to_data,它返回了文本,但在某些情况下,它给出了错误的字符。然后我尝试了 image_to_boxes ,它非常正确地返回了每个字符。但我的问题是,我需要连接这些字符来组成完整的单词。谁能向我建议我该怎么做?我的意思是说我需要从这本词典中造出三个词,例如 "~Phone" , ":", "+88-02-5042248-50".

最后,谁能解释一下这本词典中的左、下、右和上是什么意思?我可以使用它们来查找两个字符之间的距离吗?

import cv2
import numpy as np
import pytesseract
# Load image
image = cv2.imread('muTYX.jpg')

pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
text = pytesseract.image_to_string(image, lang = 'eng', config='--psm 7 --oem 3 ')

text = (text.split('\n'))
print(text[0].split(' '))

输出:['Phone'、':'、'+88-02-55042248-50']

image_to_boxes 的字典是这样的:

#(index of character, start x-axis, start y-axis, end x-axis, end y-axis)
P 53 50 64 76 0 
h 63 50 75 77 0
...

以下网站有更多信息:https://nanonets.com/blog/ocr-with-tesseract/