如何使用 osd、equ.traineddata 和其他经过训练的数据文件(孟加拉语、印地语)和 pytesseract(命令和放置位置 eq.traineddata)

How to use the osd, equ.traineddata and other trained data files ( bengali, hindi) with pytesseract (Commands and where to put eq.traineddata)

我希望 tesseract 引擎使用 eq.traineddata 处理一些数学以及孟加拉语、印地语文本。当我转到 /usr/share/tesseract-ocr/4.00/tessdata 时,我只看到一堆 *.traineddata 文件。检查 github 处的 official documentation, I find the links to these data files. I have downloaded osd.traineddata and all other files given in tessdata link

现在我必须做什么??我必须将这些文件放在哪里,然后哪个命令将启用这些语言?

我正在使用 Ubuntu 18Conda 环境。

您可以将 *.traineddata 文件复制到 /usr/share/tesseract-ocr/4.00/tessdata。在 运行 tesseract 期间,您可以使用 -l 参数传递经过训练的数据。

例如) tesseract inputpath output -l osd