为什么我在通过 Tesseract 获取文本时会得到额外的字符(箭头符号)?

Why do I get extra characters (arrow symbol) while fetching text through Tesseract?

每当我获取任何语言的文本时,输出都会有这个图像中没有的额外字符(箭头符号)。我想了解它为什么存在,以及如何避免输出中出现这些额外字符。

这很可能是隐式页面分隔符 \f,记事本显示为该箭头。有关该主题的一些详细信息,请参阅:What page separators are used in txt output by Tesseract 4.0.0?

您可以尝试将 -c page_separator="" 添加到您的配置中。那么您不应该在输出中看到该符号。请注意,分页符也将完全禁用。