Tesseract 多种输出格式
Tesseract multiple output format
我的背景
我正在使用 tesseract 从图像中提取文本。
我正在生成一个 .tsv 来检索提取的文本并对其执行一些正则表达式,并生成一个 .pdf可搜索的 pdf。
我的方法是调用 tesseract 2 次:
- 有人要求 .tsv
- 有人要 .pdf
但是我觉得这样效率不是很高(同样的计算要进行两次)
如我所愿
我想让我的计算速度更快。我的想法是只调用 tesseract 一次但指定两种输出格式
可能吗?如果是这样怎么办?
你可以试试这个命令:
tesseract yourimage.tif out pdf tsv
我的背景
我正在使用 tesseract 从图像中提取文本。
我正在生成一个 .tsv 来检索提取的文本并对其执行一些正则表达式,并生成一个 .pdf可搜索的 pdf。
我的方法是调用 tesseract 2 次:
- 有人要求 .tsv
- 有人要 .pdf
但是我觉得这样效率不是很高(同样的计算要进行两次)
如我所愿
我想让我的计算速度更快。我的想法是只调用 tesseract 一次但指定两种输出格式
可能吗?如果是这样怎么办?
你可以试试这个命令:
tesseract yourimage.tif out pdf tsv