不明白我用 pytesseract 得到的结果
Don't understand the result I have with pytesseract
我正在尝试阅读下图:
try:
import Image
except ImportError:
from PIL import Image
import pytesseract as tes
results = tes.image_to_string(Image.open('./test.png'),boxes=True)
print(results)
这是我得到的结果:
_ 239 780 263 787 0
. 239 758 263 767 0
L 235 737 263 761 0
1 220 763 229 783 0
1 220 741 229 761 0
‘ 129 763 137 784 0
1 129 741 136 761 0
1 220 650 229 670 0
‘ 220 628 229 648 0
F 235 537 263 561 0
. 239 531 263 540 0
A 239 511 268 534 0
_ 199 554 223 561 0
I 260 401 268 421 0
r 235 424 263 448 0
. 239 418 263 427 0
_ 239 398 263 404 0
{ 220 424 229 444 0
I 220 401 229 421 0
“ 220 288 229 331 0
这是什么意思?我如何解释这个结果?
非常感谢!
当您在 tes.image_to_string()
中设置 boxes=True
时,输出为框文件格式,该行中的第一个字母是识别的字符,然后是该字符出现的边界框坐标在图像中。如果boxes=False
,tesseract
只会输出识别出的字符。
您尝试OCR
的图像是 7 段数字,您可能需要有 7 段数字的训练(语言)数据才能获得良好的结果。
我正在尝试阅读下图:
try:
import Image
except ImportError:
from PIL import Image
import pytesseract as tes
results = tes.image_to_string(Image.open('./test.png'),boxes=True)
print(results)
这是我得到的结果:
_ 239 780 263 787 0
. 239 758 263 767 0
L 235 737 263 761 0
1 220 763 229 783 0
1 220 741 229 761 0
‘ 129 763 137 784 0
1 129 741 136 761 0
1 220 650 229 670 0
‘ 220 628 229 648 0
F 235 537 263 561 0
. 239 531 263 540 0
A 239 511 268 534 0
_ 199 554 223 561 0
I 260 401 268 421 0
r 235 424 263 448 0
. 239 418 263 427 0
_ 239 398 263 404 0
{ 220 424 229 444 0
I 220 401 229 421 0
“ 220 288 229 331 0
这是什么意思?我如何解释这个结果?
非常感谢!
当您在 tes.image_to_string()
中设置 boxes=True
时,输出为框文件格式,该行中的第一个字母是识别的字符,然后是该字符出现的边界框坐标在图像中。如果boxes=False
,tesseract
只会输出识别出的字符。
您尝试OCR
的图像是 7 段数字,您可能需要有 7 段数字的训练(语言)数据才能获得良好的结果。