从 PDF 中的图像中提取文本
Extract Text from Image in PDF
假设我的用户去了他们办公室的扫描仪。扫描仪能够生成扫描文档的 PDF。这基本上就是我拥有的文件类型。
我想做的是从此 PDF 中提取文本。这不是 "first generation" pdf,因为文本没有嵌入到 pdf 中。文本嵌入在 PDF 中的图像中。
PDFBox 的 iText 中是否有允许检索此数据的功能?如果可能的话,我尽量避免对图像进行 OCR。我希望 IText 或 PDFBox 中有内置的东西可以做到这一点。
请注意,我不是在谈论从 PDF 中提取 "normal" 文本,如下所述:How to get raw text from pdf file using java
假设我的用户去了他们办公室的扫描仪。扫描仪能够生成扫描文档的 PDF。这基本上就是我拥有的文件类型。
我想做的是从此 PDF 中提取文本。这不是 "first generation" pdf,因为文本没有嵌入到 pdf 中。文本嵌入在 PDF 中的图像中。
PDFBox 的 iText 中是否有允许检索此数据的功能?如果可能的话,我尽量避免对图像进行 OCR。我希望 IText 或 PDFBox 中有内置的东西可以做到这一点。
请注意,我不是在谈论从 PDF 中提取 "normal" 文本,如下所述:How to get raw text from pdf file using java