使用 R 将 PDF 的所有页面转换为文本,适用于多个文件
Using R to transform all pages of a PDF into text, for multiple files
我正在使用循环 'pdf_render_page' 函数创建 PDF 文档的位图,然后通过 tesseract 包将其转换为原始文本。但是,此功能仅在知道文件大小的情况下才有效。有谁知道一种方法来获取总页数未知的 pdf 并发现页数然后 运行 这个循环?
使用 pdftools 包时,您可以通过以下方式分配 pdf 'dummy.pdf' 的长度:
pdf_length <- pdf_info("dummy.pdf")$pages
我正在使用循环 'pdf_render_page' 函数创建 PDF 文档的位图,然后通过 tesseract 包将其转换为原始文本。但是,此功能仅在知道文件大小的情况下才有效。有谁知道一种方法来获取总页数未知的 pdf 并发现页数然后 运行 这个循环?
使用 pdftools 包时,您可以通过以下方式分配 pdf 'dummy.pdf' 的长度:
pdf_length <- pdf_info("dummy.pdf")$pages