如何从 swift 中的图像扫描可搜索的 pdf?
How to scan searchable pdf from image in swift?
我想在 swift 中使用 tesseract 框架扫描文档并生成可搜索的 pdf 文件。
实际上,我正在使用这段代码将图像转换为文本,但我想生成主要格式的图片,但格式会随着转换为文本和生成 pdf 文件而改变。
我的代码是:
func recognizeText(image:UIImage) ->String {
var str = "0"
if let tessaract = G8Tesseract(language: "eng") {
tessaract.engineMode = .tesseractCubeCombined
tessaract.pageSegmentationMode = .auto
tessaract.image = image
tessaract.recognize()
str = tessaract.recognizedText ?? "0000"
}
return str
}
使用 OCR 使扫描图像中的文本可搜索后,您可能需要使用能够生成 PDF 输出的库或 SDK。
输出可能是一个多层 PDF,其中一层将保存已识别的文本,上面的一层将保存之前扫描的图像,从而使 PDF 可搜索。
有多个库可用于生成 PDF,我可以推荐的一个库(因为我为供应商工作)是 LEADTOOLS 工具包,它具有 OCR 和文档转换功能:
https://www.leadtools.com/blog/document-imaging/pdf/convert-images-searchable-pdf-ocr/
我想在 swift 中使用 tesseract 框架扫描文档并生成可搜索的 pdf 文件。
实际上,我正在使用这段代码将图像转换为文本,但我想生成主要格式的图片,但格式会随着转换为文本和生成 pdf 文件而改变。 我的代码是:
func recognizeText(image:UIImage) ->String {
var str = "0"
if let tessaract = G8Tesseract(language: "eng") {
tessaract.engineMode = .tesseractCubeCombined
tessaract.pageSegmentationMode = .auto
tessaract.image = image
tessaract.recognize()
str = tessaract.recognizedText ?? "0000"
}
return str
}
使用 OCR 使扫描图像中的文本可搜索后,您可能需要使用能够生成 PDF 输出的库或 SDK。
输出可能是一个多层 PDF,其中一层将保存已识别的文本,上面的一层将保存之前扫描的图像,从而使 PDF 可搜索。
有多个库可用于生成 PDF,我可以推荐的一个库(因为我为供应商工作)是 LEADTOOLS 工具包,它具有 OCR 和文档转换功能: https://www.leadtools.com/blog/document-imaging/pdf/convert-images-searchable-pdf-ocr/