tesseract 4.1.1 中的混合语言问题是否有任何解决方案?
Is there any solution for mix language problem in tesseract 4.1.1?
我想用 tesseract 引擎将图像转换为文本。输入图像有两种语言(波斯语和英语)。当我使用 tesseract 多语言功能(fas+eng)时,转换后的文本有很多错误。
例如:
输出:
BERT Joo و استفاده از آن
در این گزارش به تعریف مفاهیم مورد نیاز برای شناخت مدل 7۳11 میپردازيم و نحوه استفاده از
آن را برای تحلیل متن توضیح میدهیم.
我应该用波斯语和英语文本训练模型吗?
您必须更新到最新版本的 tesseract 或 fas 训练数据。
我使用这个版本的 tesseract:
# tesseract.exe --version
tesseract v5.0.0-alpha.20191030
leptonica-1.78.0
libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.3) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.0
Found AVX
Found SSE
Found libarchive 3.3.2 zlib/1.2.11 liblzma/5.2.3 bz2lib/1.0.6 liblz4/1.7.5
而且我还使用这个提交版本来处理快速列车数据:
https://github.com/tesseract-ocr/tessdata/blob/cdd8a9ec438fc0b9f21635466196fe1c05efca16/fas.traineddata
我使用这个命令:
tesseract.exe image.png out -l fas+eng
正如您在这里看到的,我们有这个正确的文本:
مدل BERT و استفاده از آن
در این گزارش به تعریف مفاهیم مورد نیاز برای شناخت مدل BERT میپردازيم و نحوه استفاده از
آن را برای تحلیل متن توضیح میدهیم.
另见这张图片:
我想用 tesseract 引擎将图像转换为文本。输入图像有两种语言(波斯语和英语)。当我使用 tesseract 多语言功能(fas+eng)时,转换后的文本有很多错误。
例如:
输出:
BERT Joo و استفاده از آن در این گزارش به تعریف مفاهیم مورد نیاز برای شناخت مدل 7۳11 میپردازيم و نحوه استفاده از آن را برای تحلیل متن توضیح میدهیم.
我应该用波斯语和英语文本训练模型吗?
您必须更新到最新版本的 tesseract 或 fas 训练数据。
我使用这个版本的 tesseract:
# tesseract.exe --version
tesseract v5.0.0-alpha.20191030
leptonica-1.78.0
libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.3) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.0
Found AVX
Found SSE
Found libarchive 3.3.2 zlib/1.2.11 liblzma/5.2.3 bz2lib/1.0.6 liblz4/1.7.5
而且我还使用这个提交版本来处理快速列车数据:
https://github.com/tesseract-ocr/tessdata/blob/cdd8a9ec438fc0b9f21635466196fe1c05efca16/fas.traineddata
我使用这个命令:
tesseract.exe image.png out -l fas+eng
正如您在这里看到的,我们有这个正确的文本:
مدل BERT و استفاده از آن
در این گزارش به تعریف مفاهیم مورد نیاز برای شناخت مدل BERT میپردازيم و نحوه استفاده از
آن را برای تحلیل متن توضیح میدهیم.
另见这张图片: