tesseract 不识别这个图像中的这个词是正常的吗？

Question

我需要像这样从小图像中提取单词：

我正在使用带有西班牙语选项的命令行中的 tesseract，如下所示：

tesseract category.png -l spa -psm 7 category.txt

我认为这段文字一定很容易被OCR解析，但无法识别这个词。我使用 -l spa 表示西班牙语，-psm 7 因为图像只有一行（无论如何，如果我不使用 -psm 参数，结果是一样的）。

这是结果：s…"…

我正在将此构建与 lang 包一起使用：http://domasofan.spdns.eu/tesseract/（github 中引用的官方来源）

Answer 1

Tesseract 在扫描低分辨率字符时似乎很吃力。

尝试扫描这张图片。我将其分辨率提高了 400%（我认为扫描可以达到 200%，但让我们试试 400%），进行了大量的模糊处理，并将阈值设置为 ~140。尝试扫描这个，结果应该会好很多，我希望这能让你满意。如果您需要以编程方式执行此操作，请在评论中写下您不清楚的地方，我会为您提供一些其他信息。

Is it normal that tesseract does not recognize this word in this image?