如何提高读取tesseract的准确性?
How to improve read tesseract accuracy?
我想获得以下预期结果。你能给我一些改进结果的建议吗?
- 输入图片
- 预期结果
流 動 資 産
固 定 資 産
- 实际结果
産 産
資 資
動 定
- 重现结果
$ git clone https://github.com/zono/ocr.git
$ cd ocr
$ git checkout 0f2541eac302dd1fe2efbbd3b36e7ba40a99d232
$ docker-compose up -d
$ docker exec -it ocr /bin/bash
# /usr/local/bin/tesseract /ocr/src/bssample7.png stdout -l jpn
産 産
資 資
動 定
- 版本
$ docker -v
Docker version 19.03.5, build 633a0ea
# tesseract -v
tesseract 4.1.1-rc2-22-g08899
leptonica-1.79.0
libjpeg 8d (libjpeg-turbo 1.5.2) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11
我从Tesseract OCR Read Horizontally rather than Vertically C#
找到了解决方案
# /usr/local/bin/tesseract /ocr/src/bssample7.png stdout -l jpn --psm 6
流 動 資 産
固 定 資 産
您需要使用另一种页面分割方法来获得预期的结果。
尝试将 --psm 6 附加到您的命令,使其看起来像这样:
$ tesseract /ocr/src/bssample7.png outputfilename -l jpn --psm 6
在这里您可以了解不同的方法:
https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality#page-segmentation-method
亲切的问候
我想获得以下预期结果。你能给我一些改进结果的建议吗?
- 输入图片
- 预期结果
流 動 資 産
固 定 資 産
- 实际结果
産 産
資 資
動 定
- 重现结果
$ git clone https://github.com/zono/ocr.git
$ cd ocr
$ git checkout 0f2541eac302dd1fe2efbbd3b36e7ba40a99d232
$ docker-compose up -d
$ docker exec -it ocr /bin/bash
# /usr/local/bin/tesseract /ocr/src/bssample7.png stdout -l jpn
産 産
資 資
動 定
- 版本
$ docker -v
Docker version 19.03.5, build 633a0ea
# tesseract -v
tesseract 4.1.1-rc2-22-g08899
leptonica-1.79.0
libjpeg 8d (libjpeg-turbo 1.5.2) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11
我从Tesseract OCR Read Horizontally rather than Vertically C#
找到了解决方案# /usr/local/bin/tesseract /ocr/src/bssample7.png stdout -l jpn --psm 6
流 動 資 産
固 定 資 産
您需要使用另一种页面分割方法来获得预期的结果。
尝试将 --psm 6 附加到您的命令,使其看起来像这样:
$ tesseract /ocr/src/bssample7.png outputfilename -l jpn --psm 6
在这里您可以了解不同的方法:
https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality#page-segmentation-method
亲切的问候