Tesseract 多种输出格式

Tesseract multiple output format

我的背景

我正在使用 tesseract 从图像中提取文本。

我正在生成一个 .tsv 来检索提取的文本并对其执行一些正则表达式,并生成一个 .pdf可搜索的 pdf。

我的方法是调用 tesseract 2 次:

但是我觉得这样效率不是很高(同样的计算要进行两次)

如我所愿

我想让我的计算速度更快。我的想法是只调用 tesseract 一次但指定两种输出格式

可能吗?如果是这样怎么办?

你可以试试这个命令:

tesseract yourimage.tif out pdf tsv