对 pdf 进行标记以进行定量分析

tokenizing on a pdf for quantitative analysis

我 运行 在 data_frame 上使用 unnest_tokens 函数遇到问题。我正在处理要比较的 pdf 文件。

text_path <- "c:/.../text1.pdf"
text_raw <- pdf_text("c:/.../text1.pdf")
text1df<- data_frame(Zeile = 1:25, 
                      text_raw)

到目前为止一切顺利。但是我的问题来了:

  unnest_tokens(output = token, input = content) -> text1_long

错误:必须提取具有单个有效下标的列。 x 下标 var 类型错误 function。 i 必须是数字或字符。

我想标记我的 pdf 文件,这样我就可以分析词频,并可能比较 wordclouds 上的多个 pdf 文件。

这是一段简单的代码。我保留了你的德语单词,所以你可以复制粘贴所有内容。

library(pdftools)
library(dplyr)
library(stringr)
library(tidytext)

file_location <- "d:/.../my_doc.pdf"
text_raw <- pdf_text(file_location)
# Zeile 12 because I only have 12 pages
text1df <- data_frame(Zeile = 1:12, 
                     text_raw) 

text1df_long <- unnest_tokens(text1df , output = wort, input = text_raw ) %>% 
  filter(str_detect(wort, "[a-z]"))

text1df_long
# A tibble: 4,134 x 2
   Zeile wort       
   <int> <chr>      
 1     1 training   
 2     1 and        
 3     1 development
 4     1 policy     
 5     1 contents   
 6     1 policy     
 7     1 statement  
 8     1 scope      
 9     1 induction  
10     1 training   
# ... with 4,124 more rows