针对歧义训练 Tesseract OCR

Question

我是数据抓取的新手，我遇到了一个小问题。

我正在尝试使用 textract 和 Tesseract OCR 从印地语 pdf 中提取文本。以下是 Python 中的代码：

import textract

text = textract.parsers.process("test.pdf", encoding='utf_8', method='tesseract', language = 'hin')

现在，PDF 中的许多单词都已正确提取。然而，有些东西是乱七八糟的。我阅读了文档以及如何使用文件 lang.unicharambigs 来覆盖歧义。但是，我需要运行 combine_tessdata 才能真正生效并覆盖某些经过训练的数据。

但是，当我尝试运行命令时，我得到以下信息：

 -bash: combine_tessdata: command not found

我已经从源代码安装了 tesseract，但我似乎不明白为什么会这样。关于如何解决此问题的任何想法？

提前致谢！

Answer 1

Tesseract 训练可执行文件是单独构建的。

Training Tesseract OCR for ambiguities