Tesseract:线检测太敏感

Tesseract : Line detection too sensitive

我正在尝试检测 .pdf 文件文本。 它们首先被转换为图像,然后提供给 Tesseract。 检测很好,但它们换行太多。 例如,如果文件在右侧有点 panched,则句子:
“我喜欢 Tesseract 阅读文本”
成为:
“像我一样为 Tesseract 阅读文本”
这已经经过处理,因为原始文本是:
"text
read
for
Tesseract
like
I"
由于源 .pdf 为 300DPI,因此出现错误,我知道问题来自分辨率,但我找不到解决方法。 这是我的 Tesseract 命令 Tesseract.exe dummy.pdf dumy-ocr.pdf --psm 12 --dpi 300 -l bvr+fra+eng+deu hocr pdf
首先我想解决行数过多的问题, 然后我会找出如何使图像完全笔直
提前感谢您的帮助

https://i.stack.imgur.com/crmdO.jpg

你好像在倒退。 “多”行和因此单词反转是由于逆时针旋转。

                              text"
                      reading 
                  for 
        Tesseract 
   like 
"I 

先修复,然后单词自然会全部放在同一行。

如果将 Leptonica 与 Tesseract 结合使用,它应该有助于进行预处理,包括去歪斜。

然而,有一个非常小但功能强大的开源 GUI 和命令行工具,适用于 Windows、Linux 和 macOS,您可以使用shell 参见 https://galfar.vevb.net/wp/projects/deskew/ it is also available on GitHub as an appveyor CI artifact so for the most up to date version (currently 5 days ago) follow the green tick at https://github.com/galfar/deskew