我想识别我计算机上所有 pdf 的文本并保存它们而不将它们从它们的位置移动。可能吗?
I'd like to recognize the text of all pdfs on my computer and save them without moving them from their locations. Is it possible?
我试过使用 Adobe Acrobat X Pro "recognize text in multiple files."
当我启动此进程并询问目录时,我选择了 C:,我的主硬盘驱动器。
加载需要几个小时,加载时,它生成的文件列表也包括 word 文档。 Adobe 说在我删除问题文件之前我无法继续。
一旦我删除了所有 Adobe 标记为有错误(如密码保护)的 pdf 并且提示仍然存在,我认为它意味着列表中的文档一词。
所以我也手动删除了那些。但是 Adobe 仍然说我无法继续,直到问题文件被删除并且列表中没有任何剩余文件被 adobe 标记为有问题。
我的公司正在努力确保我们拥有的所有 pdf 都可以搜索。目前,有些是,有些不是。我们的目标是让它们都可以搜索到,而无需将它们从不同的位置移除。
我认为您可以结合使用
- 常规 java : 列出目录中符合给定条件的所有文件(例如,它们的名称以“.pdf”结尾)
- iText:迭代 PDF 文档并提取所有图像
- Tess4J:用于 java 的 Tesseract(google OCR 引擎)端口,用于将提取的图像转回文本
除非我弄错了,否则 Tesseract 甚至为您提供了此工作流程的粗略版本。但一次只能处理 1 个 pdf。因此,您仍然需要一些 windows/linux 脚本来导入给定目录的所有文件。
我试过使用 Adobe Acrobat X Pro "recognize text in multiple files."
当我启动此进程并询问目录时,我选择了 C:,我的主硬盘驱动器。
加载需要几个小时,加载时,它生成的文件列表也包括 word 文档。 Adobe 说在我删除问题文件之前我无法继续。
一旦我删除了所有 Adobe 标记为有错误(如密码保护)的 pdf 并且提示仍然存在,我认为它意味着列表中的文档一词。
所以我也手动删除了那些。但是 Adobe 仍然说我无法继续,直到问题文件被删除并且列表中没有任何剩余文件被 adobe 标记为有问题。
我的公司正在努力确保我们拥有的所有 pdf 都可以搜索。目前,有些是,有些不是。我们的目标是让它们都可以搜索到,而无需将它们从不同的位置移除。
我认为您可以结合使用
- 常规 java : 列出目录中符合给定条件的所有文件(例如,它们的名称以“.pdf”结尾)
- iText:迭代 PDF 文档并提取所有图像
- Tess4J:用于 java 的 Tesseract(google OCR 引擎)端口,用于将提取的图像转回文本
除非我弄错了,否则 Tesseract 甚至为您提供了此工作流程的粗略版本。但一次只能处理 1 个 pdf。因此,您仍然需要一些 windows/linux 脚本来导入给定目录的所有文件。