针对歧义训练 Tesseract OCR
Training Tesseract OCR for ambiguities
我是数据抓取的新手,我遇到了一个小问题。
我正在尝试使用 textract
和 Tesseract
OCR 从印地语 pdf 中提取文本。
以下是 Python 中的代码:
import textract
text = textract.parsers.process("test.pdf", encoding='utf_8', method='tesseract', language = 'hin')
现在,PDF 中的许多单词都已正确提取。然而,有些东西是乱七八糟的。我阅读了文档以及如何使用文件 lang.unicharambigs
来覆盖歧义。但是,我需要 运行 combine_tessdata
才能真正生效并覆盖某些经过训练的数据。
但是,当我尝试 运行 命令时,我得到以下信息:
-bash: combine_tessdata: command not found
我已经从源代码安装了 tesseract
,但我似乎不明白为什么会这样。关于如何解决此问题的任何想法?
提前致谢!
Tesseract 训练可执行文件是单独构建的。
我是数据抓取的新手,我遇到了一个小问题。
我正在尝试使用 textract
和 Tesseract
OCR 从印地语 pdf 中提取文本。
以下是 Python 中的代码:
import textract
text = textract.parsers.process("test.pdf", encoding='utf_8', method='tesseract', language = 'hin')
现在,PDF 中的许多单词都已正确提取。然而,有些东西是乱七八糟的。我阅读了文档以及如何使用文件 lang.unicharambigs
来覆盖歧义。但是,我需要 运行 combine_tessdata
才能真正生效并覆盖某些经过训练的数据。
但是,当我尝试 运行 命令时,我得到以下信息:
-bash: combine_tessdata: command not found
我已经从源代码安装了 tesseract
,但我似乎不明白为什么会这样。关于如何解决此问题的任何想法?
提前致谢!
Tesseract 训练可执行文件是单独构建的。