Python Tesseract 无法识别我图像中的数字
Python Tesseract not recognising number in my image
我有 this picture(预处理图像),我想从中提取每一行的数值。我正在使用 pytesseract 但它没有显示此图像的任何结果。
我已经尝试了其他问题的几个配置选项,例如 "--psm 13 --oem 3"
或白名单号码,但没有任何结果。
结果,我通常只得到一两个字符或 ~5 dots/dashes,但没有任何东西与我输入的大小非常相似。
希望有人能帮我提前为你的时间加油
pytesseract 版本:0.3.8
tesseract 版本:5.0.0-alpha.20210506
你一定要考虑使用--psm 4
,它更适合你的形象。我还建议重新考虑图像预处理。 Tesseract 并不完美,它需要良好的图像作为输入才能正常工作。
import cv2 as cv
import pytesseract as tsr
img = cv.imread('41DAx.jpg')
img = cv.cvtColor(img, cv.COLOR_BGR2RGB)
config = '--psm 4 -c tessedit_char_whitelist=0123456789,'
text = tsr.image_to_string(img, config=config)
print(text)
上面的代码不能很好地检测出图像中的所有数字,但几乎可以检测到。也许通过一些图像预处理,您可以达到 objective.
我有 this picture(预处理图像),我想从中提取每一行的数值。我正在使用 pytesseract 但它没有显示此图像的任何结果。
我已经尝试了其他问题的几个配置选项,例如 "--psm 13 --oem 3"
或白名单号码,但没有任何结果。
结果,我通常只得到一两个字符或 ~5 dots/dashes,但没有任何东西与我输入的大小非常相似。
希望有人能帮我提前为你的时间加油
pytesseract 版本:0.3.8 tesseract 版本:5.0.0-alpha.20210506
你一定要考虑使用--psm 4
,它更适合你的形象。我还建议重新考虑图像预处理。 Tesseract 并不完美,它需要良好的图像作为输入才能正常工作。
import cv2 as cv
import pytesseract as tsr
img = cv.imread('41DAx.jpg')
img = cv.cvtColor(img, cv.COLOR_BGR2RGB)
config = '--psm 4 -c tessedit_char_whitelist=0123456789,'
text = tsr.image_to_string(img, config=config)
print(text)
上面的代码不能很好地检测出图像中的所有数字,但几乎可以检测到。也许通过一些图像预处理,您可以达到 objective.