针对歧义训练 Tesseract OCR

Training Tesseract OCR for ambiguities

我是数据抓取的新手,我遇到了一个小问题。

我正在尝试使用 textractTesseract OCR 从印地语 pdf 中提取文本。 以下是 Python 中的代码:

import textract

text = textract.parsers.process("test.pdf", encoding='utf_8', method='tesseract', language = 'hin')

现在,PDF 中的许多单词都已正确提取。然而,有些东西是乱七八糟的。我阅读了文档以及如何使用文件 lang.unicharambigs 来覆盖歧义。但是,我需要 运行 combine_tessdata 才能真正生效并覆盖某些经过训练的数据。

但是,当我尝试 运行 命令时,我得到以下信息:

 -bash: combine_tessdata: command not found

我已经从源代码安装了 tesseract,但我似乎不明白为什么会这样。关于如何解决此问题的任何想法?

提前致谢!

Tesseract 训练可执行文件是单独构建的。

https://github.com/tesseract-ocr/tesseract/wiki/Compiling