Tesseract OCR 中是否有 属性 来查找字符串并从 PDF 中删除页面

Is there property in Tesseract OCR to find string and delete page from PDF

我试图在 Tesseract OCR 中将图像 PDF 转换为文本 PDF。在这两者之间,我需要检查封面并将其从结果中删除。 Tessaract OCR 本身是否可以根据封面的特定属性(封面文本匹配)识别封面。或者我是否必须获取 tessetact OCR 结果的全部输出并提供我的逻辑来扫描 PDF 并删除封面。我很困惑,如有任何帮助,我们将不胜感激。

Tesseract 没有办法做到这一点,你应该事先删除页面,然后将 PDF 图像交给 OCR。

关于如何执行我在

中告诉您的操作,有一个很好的答案