我在使用 TessBaseAPI() 时遇到了麻烦

i have trouble with TessBaseAPI()

使用代码:

import tesseract

api = tesseract.TessBaseAPI()

我有一个错误:

AttributeError:'module' object has no attribute 'TessBaseAPI'

使用 sudo apt-get install tesseract-ocr

您确定正确的导入不是 import pytesseract 吗?

如果是import tesseract,你有没有安装最新版本的,有没有使用pip

也许这个 link 可以帮到你。

你试过这个吗:

from tesserocr import PyTessBaseAPI

images = ['sample.jpg', 'sample2.jpg', 'sample3.jpg']

with PyTessBaseAPI() as api:
    for img in images:
        api.SetImageFile(img)
        print api.GetUTF8Text()
        print api.AllWordConfidences()

在我的例子中,我需要安装 C++ tesseract 库(不仅仅是 python 包装器)并在初始化 tesserocr API:

时提供一个路径
from tesserocr import PyTessBaseAPI
api = PyTessBaseAPI(lang='eng', path=r'C:\python\envs\python36\Lib\site-packages\tesserocr\Tesseract-OCR\tessdata')

对于 windows 7,我有一个 windows 安装程序,如下所示: https://osdn.net/projects/sfnet_tesseract-ocr-alt/downloads/tesseract-ocr-setup-3.02.02.exe/

请注意,有 4.0 版,因此您应该 google 获取最新版本。

此外 - 该路径专门指向从库创建的 tessdata 文件夹。