R tabulizer 编码或安全
R tabulizer encoding or security
我一直在练习 R 中的 tabulizer 包,但遇到了以下问题。不幸的是,我无法提供可重现的示例,因为 pdf 是公司 属性,但我会详细描述问题。
我正在尝试阅读右上角有开始和结束日期的 PDF。当我打开 PDF 时,它们看起来很正常
Start: 01-Mar-2018
End: 31-Mar-2018
现在是有趣的部分。当我突出显示它们并使用 Ctrl+C 将它们复制到这里时,粘贴到 R.
:tttt: 11-rrr-8118
tt:: 11-rrr-8118
这与 extract_text(path, pages=1)
的废话一模一样。很多 t::ttttt:ttt... 我的问题是此 PDF 是否存在一些安全性,或者我是否只需要找出正确的编码,或者因为此 PDF 是从系统自动创建的,所以所有内容都有一些奇怪的符号?
我明白了。此 PDF 主要由元数据(不知道)创建,R 中用于访问 PDF 元数据的好工具是 pdftools
。
library(pdftools)
pdf_info(path.pdf)
您可以讨论所有重要的元数据位。
我一直在练习 R 中的 tabulizer 包,但遇到了以下问题。不幸的是,我无法提供可重现的示例,因为 pdf 是公司 属性,但我会详细描述问题。
我正在尝试阅读右上角有开始和结束日期的 PDF。当我打开 PDF 时,它们看起来很正常
Start: 01-Mar-2018
End: 31-Mar-2018
现在是有趣的部分。当我突出显示它们并使用 Ctrl+C 将它们复制到这里时,粘贴到 R.
:tttt: 11-rrr-8118
tt:: 11-rrr-8118
这与 extract_text(path, pages=1)
的废话一模一样。很多 t::ttttt:ttt... 我的问题是此 PDF 是否存在一些安全性,或者我是否只需要找出正确的编码,或者因为此 PDF 是从系统自动创建的,所以所有内容都有一些奇怪的符号?
我明白了。此 PDF 主要由元数据(不知道)创建,R 中用于访问 PDF 元数据的好工具是 pdftools
。
library(pdftools)
pdf_info(path.pdf)
您可以讨论所有重要的元数据位。