适用于 .net 的 tesseract OCR 是否适用于 pdf 文件?

Does tesseract OCR for .net works with pdf files?

我想对 png 和 pdf 执行 OCR files.I 我能够获得适用于 png 文件的 Tesseract 3.0.2 .net 包装器,但我无法在其中找到任何适用于 PDF 的 class files.So,它对 pdf files.If 有效吗?请告诉我任何其他用于扫描 pdf 的开源库。我的要求是扫描特定圈子的 pdf 图表,并为这些圈子创建超链接。

不,不是。您必须先从 pdf 中提取图像。这可以按照 Zakk Diaz 的建议使用 pdfimages pdfimages.exe -j your.pdf 或 gs 来完成。