无法在 tesseract 中打开印地语语言的多维数据集语言模型参数
unable to open Cube language model params for hindi Language in tesseract
Tesseract 无法读取多维数据集语言模型。
tesseract 1.png output.txt -l hin
以上命令执行后出现如下错误。
Cube ERROR (CubeRecoContext::Load): unable to read cube language model params from /usr/share/tesseract-ocr/tessdata/hin.cube.lm
Cube ERROR (CubeRecoContext::Create): unable to init CubeRecoContext object
init_cube_objects(false, &tessdata_manager):Error:Assert failed:in file tessedit.cpp, line 207
Segmentation fault
我从哪里获得 hin.cube.lm 文件以及如何处理该文件?
我通过安装以下文件的正确版本修复了这个错误:
- hin.cube.bigrams
- hin.cube.fold
- hin.cube.lm
- hin.cube.nn
- hin.cube.params
- hin.cube.word-频率
- hin.tesseract_cube.nn
以及正确版本的印地语和英语训练数据。
以上所有文件均可在以下位置获得:
https://github.com/tesseract-ocr/tesseract/wiki/Data-Files#data-files-for-version-304305
我把这些文件放在:/usr/local/share/tessdata
这是在 CentOS 7.2 上运行
Tesseract 无法读取多维数据集语言模型。
tesseract 1.png output.txt -l hin
以上命令执行后出现如下错误。
Cube ERROR (CubeRecoContext::Load): unable to read cube language model params from /usr/share/tesseract-ocr/tessdata/hin.cube.lm
Cube ERROR (CubeRecoContext::Create): unable to init CubeRecoContext object
init_cube_objects(false, &tessdata_manager):Error:Assert failed:in file tessedit.cpp, line 207
Segmentation fault
我从哪里获得 hin.cube.lm 文件以及如何处理该文件?
我通过安装以下文件的正确版本修复了这个错误:
- hin.cube.bigrams
- hin.cube.fold
- hin.cube.lm
- hin.cube.nn
- hin.cube.params
- hin.cube.word-频率
- hin.tesseract_cube.nn
以及正确版本的印地语和英语训练数据。
以上所有文件均可在以下位置获得: https://github.com/tesseract-ocr/tesseract/wiki/Data-Files#data-files-for-version-304305
我把这些文件放在:/usr/local/share/tessdata
这是在 CentOS 7.2 上运行