从 python 中的图像中提取希伯来语文本

Extracting Hebrew text from image in python

我想从图像中提取希伯来语文本。

我试过使用 pytesseract,但它会混淆一些字母(例如 ' 而不是 ə 或 נ 而不是 כ)

我尝试对图像进行一些操作(例如调整大小、去除噪点和二值化),这有点帮助,但仍然有很多错误。

我花了几个小时寻找更好的文本提取工具,但找不到。

所以这是我的问题:

A) 是否有我可能错过的可以使用的工具?

B) 如果没有,创建我自己的步骤是什么?

提前致谢, 阿米猜

选择正确的 OCR 可能是一件困难的事情,但您似乎已经在正确的轨道上(如 this Whosebug post 中所示)。

一般来说,如果你对 Tesseract 的质量不满意,你似乎(大部分)运气不好;从我读到的内容来看,似乎有另一种选择 OCROpus,尽管这似乎没有 PyTesseract 方法那么简单。
此外,深入研究 GitHub repository of Tesseract 发现有一个基于 LSTM 的版本 4.0 正在积极开发中, 可能 会为您带来更好的结果。我不完全了解 PyTesseract 正在调用什么 Tesseract 版本,但它可能值得研究,因为替换 Tesseract 比将自己想象成一个全新的环境更容易。

PS:关于"how to build my own OCR"这个问题,我强烈反对。仅仅收集所有数据并掌握正确的基础知识会花费你很多精力,而且通常不值得你花时间;即使你得到了有用的东西,它也可能比任何提供的库都差。

你试过了吗HebHTR? 它是基于 tf1 的,很难集成。

关于 tesseract,查看此 tutorial