Tesseract OCR 在 TIFF 文件上失败
Tesseract OCR fails on TIFF files
我有一个多页 .tif
文件,我正在尝试使用 Tesseract OCR 从中提取文本,但出现此错误
TypeError: Unsupported image object
代码
from PIL import Image
import pytesseract
img = Image.open('Group 1/1_CHE_MDC_1.tif')
text = pytesseract.image_to_string(img.seek(0)) # OCR on 1st Page
text = ' '.join(text.split())
print(text)
错误
知道为什么会这样
Image.seek
没有 return 值所以你本质上是 运行:
pytesseract.image_to_string(None)
改为:
img.seek(0)
text = pytesseract.image_to_string(img)
我有同样的问题,我尝试了下面的代码,它对我有用:-
导入 glob
导入 pytesseract
导入 os
os.chdir("Set your Tesseract-OCR .exe file path")
b = ''
for i in glob.glob('Fullpath of your image directory/*.tif'): <-- you can give *.jpg extension in case of jpg image
if glob.glob('*.tif'):
b = b + (pytesseract.image_to_string(i))
print(b)
学习愉快!
我有一个多页 .tif
文件,我正在尝试使用 Tesseract OCR 从中提取文本,但出现此错误
TypeError: Unsupported image object
代码
from PIL import Image
import pytesseract
img = Image.open('Group 1/1_CHE_MDC_1.tif')
text = pytesseract.image_to_string(img.seek(0)) # OCR on 1st Page
text = ' '.join(text.split())
print(text)
错误
知道为什么会这样
Image.seek
没有 return 值所以你本质上是 运行:
pytesseract.image_to_string(None)
改为:
img.seek(0)
text = pytesseract.image_to_string(img)
我有同样的问题,我尝试了下面的代码,它对我有用:-
导入 glob
导入 pytesseract
导入 os
os.chdir("Set your Tesseract-OCR .exe file path")
b = ''
for i in glob.glob('Fullpath of your image directory/*.tif'): <-- you can give *.jpg extension in case of jpg image
if glob.glob('*.tif'):
b = b + (pytesseract.image_to_string(i))
print(b)
学习愉快!