如何从 swift 中的图像扫描可搜索的 pdf？

Question

我想在 swift 中使用 tesseract 框架扫描文档并生成可搜索的 pdf 文件。

实际上，我正在使用这段代码将图像转换为文本，但我想生成主要格式的图片，但格式会随着转换为文本和生成 pdf 文件而改变。我的代码是：

   func recognizeText(image:UIImage) ->String {
        var str = "0"
        if let tessaract = G8Tesseract(language: "eng") {
            tessaract.engineMode = .tesseractCubeCombined
            tessaract.pageSegmentationMode = .auto
            tessaract.image = image
            tessaract.recognize()
            str = tessaract.recognizedText ?? "0000"
        }
        return str
    }

Answer 1

使用 OCR 使扫描图像中的文本可搜索后，您可能需要使用能够生成 PDF 输出的库或 SDK。

输出可能是一个多层 PDF，其中一层将保存已识别的文本，上面的一层将保存之前扫描的图像，从而使 PDF 可搜索。

有多个库可用于生成 PDF，我可以推荐的一个库（因为我为供应商工作）是 LEADTOOLS 工具包，它具有 OCR 和文档转换功能： https://www.leadtools.com/blog/document-imaging/pdf/convert-images-searchable-pdf-ocr/

如何从 swift 中的图像扫描可搜索的 pdf？

How to scan searchable pdf from image in swift?

pdf

ocr

ios

swift

swift5