从 python 中的图像中提取希伯来语文本

Extracting Hebrew text from image in python

我想从图像中提取希伯来语文本。

我试过使用 pytesseract，但它会混淆一些字母（例如 ' 而不是 ə 或 נ 而不是 כ）

我尝试对图像进行一些操作（例如调整大小、去除噪点和二值化），这有点帮助，但仍然有很多错误。

我花了几个小时寻找更好的文本提取工具，但找不到。

所以这是我的问题：

A) 是否有我可能错过的可以使用的工具？

B) 如果没有，创建我自己的步骤是什么？

提前致谢，阿米猜

选择正确的 OCR 可能是一件困难的事情，但您似乎已经在正确的轨道上（如 this Whosebug post 中所示）。

一般来说，如果你对 Tesseract 的质量不满意，你似乎（大部分）运气不好；从我读到的内容来看，似乎有另一种选择 OCROpus，尽管这似乎没有 PyTesseract 方法那么简单。
此外，深入研究 GitHub repository of Tesseract 发现有一个基于 LSTM 的版本 4.0 正在积极开发中，可能会为您带来更好的结果。我不完全了解 PyTesseract 正在调用什么 Tesseract 版本，但它可能值得研究，因为替换 Tesseract 比将自己想象成一个全新的环境更容易。

PS：关于"how to build my own OCR"这个问题，我强烈反对。仅仅收集所有数据并掌握正确的基础知识会花费你很多精力，而且通常不值得你花时间；即使你得到了有用的东西，它也可能比任何提供的库都差。

你试过了吗HebHTR？它是基于 tf1 的，很难集成。

关于 tesseract，查看此 tutorial

从 python 中的图像中提取希伯来语文本

Extracting Hebrew text from image in python

python

ocr

hebrew

computer-vision

python-tesseract