R tabulizer 编码或安全

Question

我一直在练习 R 中的 tabulizer 包，但遇到了以下问题。不幸的是，我无法提供可重现的示例，因为 pdf 是公司属性，但我会详细描述问题。

我正在尝试阅读右上角有开始和结束日期的 PDF。当我打开 PDF 时，它们看起来很正常

Start: 01-Mar-2018
  End: 31-Mar-2018

现在是有趣的部分。当我突出显示它们并使用 Ctrl+C 将它们复制到这里时，粘贴到 R.

:tttt: 11-rrr-8118
tt:: 11-rrr-8118

这与 extract_text(path, pages=1) 的废话一模一样。很多 t::ttttt:ttt... 我的问题是此 PDF 是否存在一些安全性，或者我是否只需要找出正确的编码，或者因为此 PDF 是从系统自动创建的，所以所有内容都有一些奇怪的符号？

Answer 1

我明白了。此 PDF 主要由元数据（不知道）创建，R 中用于访问 PDF 元数据的好工具是 pdftools。

library(pdftools)

pdf_info(path.pdf)

您可以讨论所有重要的元数据位。

R tabulizer encoding or security