从 PDF 中的图像中提取文本

Extract Text from Image in PDF

假设我的用户去了他们办公室的扫描仪。扫描仪能够生成扫描文档的 PDF。这基本上就是我拥有的文件类型。

我想做的是从此 PDF 中提取文本。这不是 "first generation" pdf,因为文本没有嵌入到 pdf 中。文本嵌入在 PDF 中的图像中。

PDFBox 的 iText 中是否有允许检索此数据的功能?如果可能的话,我尽量避免对图像进行 OCR。我希望 IText 或 PDFBox 中有内置的东西可以做到这一点。

请注意,我不是在谈论从 PDF 中提取 "normal" 文本,如下所述:How to get raw text from pdf file using java

好的,四处看看后,似乎没有专门针对 iText 或 PDFBox 执行此操作的方法,但看起来 PDFBox 确实有一个第三方软件插件可以完成您的需要.如果有兴趣,链接是 here and here, sourced from here(来自@TilmanHausherr)。