如何从 swift 中的图像扫描可搜索的 pdf?

How to scan searchable pdf from image in swift?

我想在 swift 中使用 tesseract 框架扫描文档并生成可搜索的 pdf 文件。

实际上,我正在使用这段代码将图像转换为文本,但我想生成主要格式的图片,但格式会随着转换为文本和生成 pdf 文件而改变。 我的代码是:

   func recognizeText(image:UIImage) ->String {
        var str = "0"
        if let tessaract = G8Tesseract(language: "eng") {
            tessaract.engineMode = .tesseractCubeCombined
            tessaract.pageSegmentationMode = .auto
            tessaract.image = image
            tessaract.recognize()
            str = tessaract.recognizedText ?? "0000"
        }
        return str
    }

使用 OCR 使扫描图像中的文本可搜索后,您可能需要使用能够生成 PDF 输出的库或 SDK。

输出可能是一个多层 PDF,其中一层将保存已识别的文本,上面的一层将保存之前扫描的图像,从而使 PDF 可搜索。

有多个库可用于生成 PDF,我可以推荐的一个库(因为我为供应商工作)是 LEADTOOLS 工具包,它具有 OCR 和文档转换功能: https://www.leadtools.com/blog/document-imaging/pdf/convert-images-searchable-pdf-ocr/