尝试使用 OCR PDF 时出现问题。NET/C#

Issues when trying to OCR PDFs using .NET/C#

旧版本的 Adobe PDF 用于以一种特定方式区分可搜索 PDF/Image PDF。在可搜索 PDF 中，当您尝试 select 时，您可以 select 只有文本和图像的 pdf 将出现一个灰色文本框（没有文本 selected）。这是之前的经验法则。但现在有了 Adobe DC，这一切都变了。 Adobe DC，允许您 select 文本甚至图像 pdf/s（不可搜索的 pdf）。但是，如果您尝试复制和粘贴，它不会粘贴您复制的内容，您会得到一些特殊字符。知道为什么 Adobe DC 会这样做吗？现在找出什么是可搜索的 pdf 和什么是图像 pdf（非 ocr pdf）的经验法则是什么？
一些非 OCR pdf 文档在尝试进行 OCR 时出现“可渲染文本”错误，并且这些页面的 OCR 失败。消除“此页面包含可呈现文本”错误的最佳方法是什么？对此类页面进行 OCR 的最佳方法是什么。
如何在 C# 中以编程方式对 pdf 文档进行 OCR？如果这需要更多时间，处理会话超时的方法是什么？无论如何要在后台进行 OCR 并在最后发送给用户（想法是不要将用户留在前端，并且仍然有一些方法可以在过程完成后将创建的文件交付给提交者）。

如果 PDF 页面包含没有文本的图像，从中获取文本的唯一方法是使用 OCR。 Adobe Acrobat DC 和一些早期版本的 Acrobat 都有 OCR 功能，但据我所知，你只能 OCR 一个或多个页面，不小 selection.
这意味着，如果您有一张图片，而 Acrobat 允许您在没有明确运行 OCR 的情况下使用 select 文本，很可能该文件已经包含 image-over-text 或图片上的隐藏文本。如果文本在您复制和粘贴时出现乱码，则可能是它在 OCR 和保存时的存储方式。发生这种情况的原因可能是文本质量不够好，无法进行 OCR，或者用于执行 OCR 的软件质量低下并且错误地获取了字符。
如果您尝试 OCR 并得到 "page contains renderable text" 错误，这意味着该文件已经包含文本。同样，文本可能被隐藏，但它就在那里。以下文章对此进行了更多解释：
https://helpx.adobe.com/acrobat/kb/error-could-perform-recognition-acrobat.html
有几个 SDK 支持使用 C# 打开和 OCRing PDF 文件。 Whosebug 的这个区域不是寻求建议的地方。请尝试 https://softwarerecs.stackexchange.com/。