为什么我在通过 Tesseract 获取文本时会得到额外的字符（箭头符号）？

Why do I get extra characters (arrow symbol) while fetching text through Tesseract?

tesseract

每当我获取任何语言的文本时，输出都会有这个图像中没有的额外字符（箭头符号）。我想了解它为什么存在，以及如何避免输出中出现这些额外字符。

这很可能是隐式页面分隔符 \f，记事本显示为该箭头。有关该主题的一些详细信息，请参阅：What page separators are used in txt output by Tesseract 4.0.0?

您可以尝试将 -c page_separator="" 添加到您的配置中。那么您不应该在输出中看到该符号。请注意，分页符也将完全禁用。