如何在 ocring 多 tiff 文件时获取 tesseract 中的页码

How to get page no in tesseract while ocring multi tiff file

Ocring 多tiff 文件时,如何在命令行中获取页面编号。例如 -

tesseract myfile.tif output-page_no.txt

此处输出文件应具有来自 tiff 文件的相应页码。

hocr 输出选项会生成页码。但是,如果使用适当的开关,文本可以输出分页符:

tesseract -c include_page_breaks=1 -c page_separator="[PAGE SEPRATOR]" 109359.tiff 109359

看到这个post