如何从PDF图像中提取文本

How to extract text from PDF image

我想从有图像的 PDF 中提取数据,图像是字母在小方框内的形式,例如,name : t e s t,这里每个单词都在方框内。

我试过 tesseract OCR 无法得到想要的结果。

我试过商业版 ABBYY,但我想使用基于 java 的免费 API。

下面是例子

就 OCR 的免费使用而言,Tesseract 已经是最好的了。

或者您可以查看 Windows 10 UWP OCR offering

我不确定那里有免费的,但你绝对可以试试 TotalPDFConverterOCR

它具有广泛的功能,例如转换为文档、图像等。

免费 SDK Nicomsoft OCR SDK 已从我的 PDF 中提取文本,结果令人满意

它支持非常大的技术,现在我正在尝试将它集成到我的应用程序中

Link https://www.nicomsoft.com/