如何防止 Tesseract 在单词中插入额外的空格?

How to keep Tesseract from inserting extra whitespace in words?

我已经在Tesseract forum

上问过这个了

通过 Tesseract(和 ImageMagick),我试图找出这个的文本 PDF file

这是我正在处理的 PDF 部分,它是 PDF:

在本节中,Tesseract 在尝试识别时 运行 遇到了问题 字符串 CONSTRUCTORA.

它看到 CO NSTRUCTO RA

应该看到CONSTRUCTORA

任何人都可以提出任何可能的修复方法吗?

这是命令行序列:

convert -density 600 my_pdf.pdf tmp.tif 
tesseract -l spa tmp.tif stdout > tmp.txt 

这些是软件版本:

~% tesseract --version 
tesseract 3.05.01 
leptonica-1.74.4 
  libgif 4.1.6(?) : libjpeg 8d (libjpeg-turbo 1.3.0) : libpng 1.2.50 : 
libtiff 4.0.3 : zlib 1.2.8 
~% convert --version 
Version: ImageMagick 6.7.7-10 2014-08-28 Q16 http://www.imagemagick.org 
Copyright: Copyright (C) 1999-2012 ImageMagick Studio LLC 
Features: OpenMP 

为了处理PDF文件的不规则字距,Will suggested tweaking the parameters around tosp_min_sane_kn_sp of the docs https://github.com/naptha/tesseract.js/blob/master/docs/tesseract_parameters.md

设置tosp_min_sane_kn_sp=2.8解决了问题中描述的问题。

新的 Tesseract 调用如下:

tesseract -c tosp_min_sane_kn_sp=2.8 -l spa tmp.tif stdout > tmp.txt

tosp_min_sane_kn_sp 的默认值似乎是 1.5。到目前为止,我只测试过大于 1.5 的值。