Tesseract OCR 在 TIFF 文件上失败

Question

我有一个多页 .tif 文件，我正在尝试使用 Tesseract OCR 从中提取文本，但出现此错误

TypeError: Unsupported image object

代码

from PIL import Image
import pytesseract

img = Image.open('Group 1/1_CHE_MDC_1.tif')
text = pytesseract.image_to_string(img.seek(0))  # OCR on 1st Page
text = ' '.join(text.split())
print(text)

错误

知道为什么会这样

Answer 1

Image.seek 没有 return 值所以你本质上是运行:

pytesseract.image_to_string(None)

改为：

img.seek(0)
text = pytesseract.image_to_string(img)

Answer 2

我有同样的问题，我尝试了下面的代码，它对我有用:-

导入 glob
导入 pytesseract 导入 os

os.chdir("Set your Tesseract-OCR .exe file path")

b = ''
for i in glob.glob('Fullpath of your image directory/*.tif'):  <-- you can give *.jpg extension in case of jpg image
    if  glob.glob('*.tif'):
        b = b +  (pytesseract.image_to_string(i))
print(b)

学习愉快！

Tesseract OCR 在 TIFF 文件上失败

Tesseract OCR fails on TIFF files

python

ocr

tesseract

python-tesseract