使用 R 将 PDF 的所有页面转换为文本，适用于多个文件

Question

我正在使用循环 'pdf_render_page' 函数创建 PDF 文档的位图，然后通过 tesseract 包将其转换为原始文本。但是，此功能仅在知道文件大小的情况下才有效。有谁知道一种方法来获取总页数未知的 pdf 并发现页数然后运行这个循环？

Answer 1

使用 pdftools 包时，您可以通过以下方式分配 pdf 'dummy.pdf' 的长度：

pdf_length <- pdf_info("dummy.pdf")$pages

Using R to transform all pages of a PDF into text, for multiple files