我想识别我计算机上所有 pdf 的文本并保存它们而不将它们从它们的位置移动。可能吗？

I'd like to recognize the text of all pdfs on my computer and save them without moving them from their locations. Is it possible?

我试过使用 Adobe Acrobat X Pro "recognize text in multiple files."

当我启动此进程并询问目录时，我选择了 C:，我的主硬盘驱动器。

加载需要几个小时，加载时，它生成的文件列表也包括 word 文档。 Adobe 说在我删除问题文件之前我无法继续。

一旦我删除了所有 Adobe 标记为有错误（如密码保护）的 pdf 并且提示仍然存在，我认为它意味着列表中的文档一词。

所以我也手动删除了那些。但是 Adobe 仍然说我无法继续，直到问题文件被删除并且列表中没有任何剩余文件被 adobe 标记为有问题。

我的公司正在努力确保我们拥有的所有 pdf 都可以搜索。目前，有些是，有些不是。我们的目标是让它们都可以搜索到，而无需将它们从不同的位置移除。

我认为您可以结合使用

除非我弄错了，否则 Tesseract 甚至为您提供了此工作流程的粗略版本。但一次只能处理 1 个 pdf。因此，您仍然需要一些 windows/linux 脚本来导入给定目录的所有文件。