Tesseract边界框距离计算
Tesseract bounding box distance calculation
我正在尝试应用 tesseract OCR 从图像中提取文本。起初,我尝试了 image_to_data,它返回了文本,但在某些情况下,它给出了错误的字符。然后我尝试了 image_to_boxes ,它非常正确地返回了每个字符。但我的问题是,我需要连接这些字符来组成完整的单词。谁能向我建议我该怎么做?我的意思是说我需要从这本词典中造出三个词,例如 "~Phone" , ":", "+88-02-5042248-50".
最后,谁能解释一下这本词典中的左、下、右和上是什么意思?我可以使用它们来查找两个字符之间的距离吗?
import cv2
import numpy as np
import pytesseract
# Load image
image = cv2.imread('muTYX.jpg')
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
text = pytesseract.image_to_string(image, lang = 'eng', config='--psm 7 --oem 3 ')
text = (text.split('\n'))
print(text[0].split(' '))
输出:['Phone'、':'、'+88-02-55042248-50']
而 image_to_boxes
的字典是这样的:
#(index of character, start x-axis, start y-axis, end x-axis, end y-axis)
P 53 50 64 76 0
h 63 50 75 77 0
...
我正在尝试应用 tesseract OCR 从图像中提取文本。起初,我尝试了 image_to_data,它返回了文本,但在某些情况下,它给出了错误的字符。然后我尝试了 image_to_boxes ,它非常正确地返回了每个字符。但我的问题是,我需要连接这些字符来组成完整的单词。谁能向我建议我该怎么做?我的意思是说我需要从这本词典中造出三个词,例如 "~Phone" , ":", "+88-02-5042248-50".
最后,谁能解释一下这本词典中的左、下、右和上是什么意思?我可以使用它们来查找两个字符之间的距离吗?
import cv2
import numpy as np
import pytesseract
# Load image
image = cv2.imread('muTYX.jpg')
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
text = pytesseract.image_to_string(image, lang = 'eng', config='--psm 7 --oem 3 ')
text = (text.split('\n'))
print(text[0].split(' '))
输出:['Phone'、':'、'+88-02-55042248-50']
而 image_to_boxes
的字典是这样的:
#(index of character, start x-axis, start y-axis, end x-axis, end y-axis)
P 53 50 64 76 0
h 63 50 75 77 0
...