如何防止 Tesseract 在单词中插入额外的空格?
How to keep Tesseract from inserting extra whitespace in words?
我已经在Tesseract forum
上问过这个了
通过 Tesseract(和 ImageMagick),我试图找出这个的文本
PDF file
这是我正在处理的 PDF 部分,它是
PDF:
在本节中,Tesseract 在尝试识别时 运行 遇到了问题
字符串 CONSTRUCTORA.
它看到 CO NSTRUCTO RA
应该看到CONSTRUCTORA
任何人都可以提出任何可能的修复方法吗?
这是命令行序列:
convert -density 600 my_pdf.pdf tmp.tif
tesseract -l spa tmp.tif stdout > tmp.txt
这些是软件版本:
~% tesseract --version
tesseract 3.05.01
leptonica-1.74.4
libgif 4.1.6(?) : libjpeg 8d (libjpeg-turbo 1.3.0) : libpng 1.2.50 :
libtiff 4.0.3 : zlib 1.2.8
~% convert --version
Version: ImageMagick 6.7.7-10 2014-08-28 Q16 http://www.imagemagick.org
Copyright: Copyright (C) 1999-2012 ImageMagick Studio LLC
Features: OpenMP
为了处理PDF文件的不规则字距,Will suggested tweaking the parameters around tosp_min_sane_kn_sp
of the docs https://github.com/naptha/tesseract.js/blob/master/docs/tesseract_parameters.md
设置tosp_min_sane_kn_sp=2.8
解决了问题中描述的问题。
新的 Tesseract 调用如下:
tesseract -c tosp_min_sane_kn_sp=2.8 -l spa tmp.tif stdout > tmp.txt
tosp_min_sane_kn_sp
的默认值似乎是 1.5。到目前为止,我只测试过大于 1.5 的值。
我已经在Tesseract forum
上问过这个了通过 Tesseract(和 ImageMagick),我试图找出这个的文本 PDF file
这是我正在处理的 PDF 部分,它是 PDF:
在本节中,Tesseract 在尝试识别时 运行 遇到了问题 字符串 CONSTRUCTORA.
它看到 CO NSTRUCTO RA
应该看到CONSTRUCTORA
任何人都可以提出任何可能的修复方法吗?
这是命令行序列:
convert -density 600 my_pdf.pdf tmp.tif
tesseract -l spa tmp.tif stdout > tmp.txt
这些是软件版本:
~% tesseract --version
tesseract 3.05.01
leptonica-1.74.4
libgif 4.1.6(?) : libjpeg 8d (libjpeg-turbo 1.3.0) : libpng 1.2.50 :
libtiff 4.0.3 : zlib 1.2.8
~% convert --version
Version: ImageMagick 6.7.7-10 2014-08-28 Q16 http://www.imagemagick.org
Copyright: Copyright (C) 1999-2012 ImageMagick Studio LLC
Features: OpenMP
为了处理PDF文件的不规则字距,Will suggested tweaking the parameters around tosp_min_sane_kn_sp
of the docs https://github.com/naptha/tesseract.js/blob/master/docs/tesseract_parameters.md
设置tosp_min_sane_kn_sp=2.8
解决了问题中描述的问题。
新的 Tesseract 调用如下:
tesseract -c tosp_min_sane_kn_sp=2.8 -l spa tmp.tif stdout > tmp.txt
tosp_min_sane_kn_sp
的默认值似乎是 1.5。到目前为止,我只测试过大于 1.5 的值。