为什么我在通过 Tesseract 获取文本时会得到额外的字符(箭头符号)?
Why do I get extra characters (arrow symbol) while fetching text through Tesseract?
每当我获取任何语言的文本时,输出都会有这个图像中没有的额外字符(箭头符号)。我想了解它为什么存在,以及如何避免输出中出现这些额外字符。
这很可能是隐式页面分隔符 \f
,记事本显示为该箭头。有关该主题的一些详细信息,请参阅:What page separators are used in txt output by Tesseract 4.0.0?
您可以尝试将 -c page_separator=""
添加到您的配置中。那么您不应该在输出中看到该符号。请注意,分页符也将完全禁用。
每当我获取任何语言的文本时,输出都会有这个图像中没有的额外字符(箭头符号)。我想了解它为什么存在,以及如何避免输出中出现这些额外字符。
这很可能是隐式页面分隔符 \f
,记事本显示为该箭头。有关该主题的一些详细信息,请参阅:What page separators are used in txt output by Tesseract 4.0.0?
您可以尝试将 -c page_separator=""
添加到您的配置中。那么您不应该在输出中看到该符号。请注意,分页符也将完全禁用。