尝试使用 OCR PDF 时出现问题。NET/C#
Issues when trying to OCR PDFs using .NET/C#
旧版本的 Adobe PDF 用于以一种特定方式区分可搜索 PDF/Image PDF。在可搜索 PDF 中,当您尝试 select 时,您可以 select 只有文本和图像的 pdf 将出现一个灰色文本框(没有文本 selected)。这是之前的经验法则。但现在有了 Adobe DC,这一切都变了。 Adobe DC,允许您 select 文本甚至图像 pdf/s(不可搜索的 pdf)。但是,如果您尝试复制和粘贴,它不会粘贴您复制的内容,您会得到一些特殊字符。知道为什么 Adobe DC 会这样做吗?现在找出什么是可搜索的 pdf 和什么是图像 pdf(非 ocr pdf)的经验法则是什么?
一些非 OCR pdf 文档在尝试进行 OCR 时出现“可渲染文本”错误,并且这些页面的 OCR 失败。消除“此页面包含可呈现文本”错误的最佳方法是什么?对此类页面进行 OCR 的最佳方法是什么。
如何在 C# 中以编程方式对 pdf 文档进行 OCR?如果这需要更多时间,处理会话超时的方法是什么?无论如何要在后台进行 OCR 并在最后发送给用户(想法是不要将用户留在前端,并且仍然有一些方法可以在过程完成后将创建的文件交付给提交者)。
- 如果 PDF 页面包含没有文本的图像,从中获取文本的唯一方法是使用 OCR。 Adobe Acrobat DC 和一些早期版本的 Acrobat 都有 OCR 功能,但据我所知,你只能 OCR 一个或多个页面,不小 selection.
这意味着,如果您有一张图片,而 Acrobat 允许您在没有明确 运行 OCR 的情况下使用 select 文本,很可能该文件已经包含 image-over-text 或图片上的隐藏文本。如果文本在您复制和粘贴时出现乱码,则可能是它在 OCR 和保存时的存储方式。发生这种情况的原因可能是文本质量不够好,无法进行 OCR,或者用于执行 OCR 的软件质量低下并且错误地获取了字符。
如果您尝试 OCR 并得到 "page contains renderable text" 错误,这意味着该文件已经包含文本。同样,文本可能被隐藏,但它就在那里。以下文章对此进行了更多解释:
https://helpx.adobe.com/acrobat/kb/error-could-perform-recognition-acrobat.html
有几个 SDK 支持使用 C# 打开和 OCRing PDF 文件。 Whosebug 的这个区域不是寻求建议的地方。请尝试 https://softwarerecs.stackexchange.com/。
旧版本的 Adobe PDF 用于以一种特定方式区分可搜索 PDF/Image PDF。在可搜索 PDF 中,当您尝试 select 时,您可以 select 只有文本和图像的 pdf 将出现一个灰色文本框(没有文本 selected)。这是之前的经验法则。但现在有了 Adobe DC,这一切都变了。 Adobe DC,允许您 select 文本甚至图像 pdf/s(不可搜索的 pdf)。但是,如果您尝试复制和粘贴,它不会粘贴您复制的内容,您会得到一些特殊字符。知道为什么 Adobe DC 会这样做吗?现在找出什么是可搜索的 pdf 和什么是图像 pdf(非 ocr pdf)的经验法则是什么?
一些非 OCR pdf 文档在尝试进行 OCR 时出现“可渲染文本”错误,并且这些页面的 OCR 失败。消除“此页面包含可呈现文本”错误的最佳方法是什么?对此类页面进行 OCR 的最佳方法是什么。
如何在 C# 中以编程方式对 pdf 文档进行 OCR?如果这需要更多时间,处理会话超时的方法是什么?无论如何要在后台进行 OCR 并在最后发送给用户(想法是不要将用户留在前端,并且仍然有一些方法可以在过程完成后将创建的文件交付给提交者)。
- 如果 PDF 页面包含没有文本的图像,从中获取文本的唯一方法是使用 OCR。 Adobe Acrobat DC 和一些早期版本的 Acrobat 都有 OCR 功能,但据我所知,你只能 OCR 一个或多个页面,不小 selection.
这意味着,如果您有一张图片,而 Acrobat 允许您在没有明确 运行 OCR 的情况下使用 select 文本,很可能该文件已经包含 image-over-text 或图片上的隐藏文本。如果文本在您复制和粘贴时出现乱码,则可能是它在 OCR 和保存时的存储方式。发生这种情况的原因可能是文本质量不够好,无法进行 OCR,或者用于执行 OCR 的软件质量低下并且错误地获取了字符。 如果您尝试 OCR 并得到 "page contains renderable text" 错误,这意味着该文件已经包含文本。同样,文本可能被隐藏,但它就在那里。以下文章对此进行了更多解释:
https://helpx.adobe.com/acrobat/kb/error-could-perform-recognition-acrobat.html有几个 SDK 支持使用 C# 打开和 OCRing PDF 文件。 Whosebug 的这个区域不是寻求建议的地方。请尝试 https://softwarerecs.stackexchange.com/。