如何防止 Tesseract 在单词中插入额外的空格？

Question

我已经在Tesseract forum

上问过这个了

通过 Tesseract（和 ImageMagick），我试图找出这个的文本 PDF file

这是我正在处理的 PDF 部分，它是 PDF:

在本节中，Tesseract 在尝试识别时运行遇到了问题字符串 CONSTRUCTORA.

它看到 CO NSTRUCTO RA

应该看到CONSTRUCTORA

任何人都可以提出任何可能的修复方法吗？

这是命令行序列：

convert -density 600 my_pdf.pdf tmp.tif 
tesseract -l spa tmp.tif stdout > tmp.txt

这些是软件版本：

~% tesseract --version 
tesseract 3.05.01 
leptonica-1.74.4 
  libgif 4.1.6(?) : libjpeg 8d (libjpeg-turbo 1.3.0) : libpng 1.2.50 : 
libtiff 4.0.3 : zlib 1.2.8 
~% convert --version 
Version: ImageMagick 6.7.7-10 2014-08-28 Q16 http://www.imagemagick.org 
Copyright: Copyright (C) 1999-2012 ImageMagick Studio LLC 
Features: OpenMP

Answer 1

为了处理PDF文件的不规则字距，Will suggested tweaking the parameters around tosp_min_sane_kn_sp of the docs https://github.com/naptha/tesseract.js/blob/master/docs/tesseract_parameters.md

设置tosp_min_sane_kn_sp=2.8解决了问题中描述的问题。

新的 Tesseract 调用如下：

tesseract -c tosp_min_sane_kn_sp=2.8 -l spa tmp.tif stdout > tmp.txt

tosp_min_sane_kn_sp 的默认值似乎是 1.5。到目前为止，我只测试过大于 1.5 的值。

如何防止 Tesseract 在单词中插入额外的空格？

How to keep Tesseract from inserting extra whitespace in words?

ocr

tesseract

imagemagick