使用 readtext 阅读 pdf 文本时,有没有办法确保 readtext 尊重列?
When reading in pdf text using readtext is there a way to ensure that readtext respects columns?
问题是我有一个横向格式的 PDF 文档,其中包含三列文本,我正尝试使用 readtext() 将其读入 R。当它读取文本时,不是按顺序读取每一列,而是跨同一行文本在列之间读取。
简单来说,如果每列的第一行只是一串 1-10 的数字,第二行是一串 11-20,那么 readtext() 会将其读入为“1234567891012345678910”,而不是如“1234567891011121314...”等等
有没有办法指定 readtext() 在我的导入过程中跟随列?
最好,
丹尼尔
(当前)答案是否定的。 readtext
使用 pdftools 包来读取 pdf,这不能识别单独的列。这与用于阅读 pdf 的 poppler 有关。另请参阅 github 上的 issue 4。它有点像 pdf_data
但不容易检索。
问题是我有一个横向格式的 PDF 文档,其中包含三列文本,我正尝试使用 readtext() 将其读入 R。当它读取文本时,不是按顺序读取每一列,而是跨同一行文本在列之间读取。
简单来说,如果每列的第一行只是一串 1-10 的数字,第二行是一串 11-20,那么 readtext() 会将其读入为“1234567891012345678910”,而不是如“1234567891011121314...”等等
有没有办法指定 readtext() 在我的导入过程中跟随列?
最好, 丹尼尔
(当前)答案是否定的。 readtext
使用 pdftools 包来读取 pdf,这不能识别单独的列。这与用于阅读 pdf 的 poppler 有关。另请参阅 github 上的 issue 4。它有点像 pdf_data
但不容易检索。