运行 python 环境中的 Tesseract 或替代 OCR 模块,无需下载 .exe 文件

Running Tesseract or an alternative OCR module in a python environment without downloading an .exe file

我正在寻找 OCR 实现,最好是在 Python 中,它能够从扫描的 pdf(打印的机器书写文本)中提取文本。然而,由于公司政策和安全原因,我无法下载任何可执行文件 (.exe),因此任何基于 Tesseract 构建的 Python 库目前对我不起作用......其他人是否也遇到过这个问题? (我想这在大公司中很常见)。我会寻找一种解决方法,一种无需下载 .exe 文件即可构建 tesseract 的方法,或者另一种 OCR 实现。

已经谢谢了! 我正在 Windows 7 机器上工作..

不幸的是,Pytesseract 只是 Tesseract 二进制文件(Windows 上的 .exe)的包装器,因此您可能不得不乞求并恳求您的 IT 允许它。一个选项可能是自己从源代码构建 Tesseract,所以你还没有下载 "random" .exe...

当然,另一种选择是使用在线 OCR API,但如果安全性如此严格(我想预算也是如此),那可能也不适合你。