使用 keyword_search 检测 pdf 时文件名太长?
Filename too long when using keyword_search to detect pdf?
我正在尝试通过搜索某些关键字对 pdf 进行一些文本挖掘。
这是我的代码:
library(pdftools)
library(tidyverse)
library(pdfsearch)
UC_text <- pdf_text("https://wilmar-iframe.todayir.com/attachment/20190411162436345449392_en.pdf")
result <- keyword_search(UC_text,
keyword = c('SUBSTANTIAL SHAREHOLDERS'),
path = TRUE, surround_lines = 1)
但是,我收到文件名太长的错误信息。我怎样才能解决这个问题?
根据pdfsearch的cran手册中的说明,您可以直接将PDFlink传递给keyword_search()
。这样,我就看不到你提供的错误信息了。我宁愿得到以下结果。
result <- keyword_search("https://wilmar-iframe.todayir.com/attachment/20190411162436345449392_en.pdf",
keyword = c('SUBSTANTIAL SHAREHOLDERS'),
path = TRUE, surround_lines = 1)
keyword page_num line_num line_text token_text
<chr> <int> <int> <list> <list>
1 SUBSTANTIAL SHAREHOLDERS 49 2010 <chr [3]> <list [3]>
我正在尝试通过搜索某些关键字对 pdf 进行一些文本挖掘。
这是我的代码:
library(pdftools)
library(tidyverse)
library(pdfsearch)
UC_text <- pdf_text("https://wilmar-iframe.todayir.com/attachment/20190411162436345449392_en.pdf")
result <- keyword_search(UC_text,
keyword = c('SUBSTANTIAL SHAREHOLDERS'),
path = TRUE, surround_lines = 1)
但是,我收到文件名太长的错误信息。我怎样才能解决这个问题?
根据pdfsearch的cran手册中的说明,您可以直接将PDFlink传递给keyword_search()
。这样,我就看不到你提供的错误信息了。我宁愿得到以下结果。
result <- keyword_search("https://wilmar-iframe.todayir.com/attachment/20190411162436345449392_en.pdf",
keyword = c('SUBSTANTIAL SHAREHOLDERS'),
path = TRUE, surround_lines = 1)
keyword page_num line_num line_text token_text
<chr> <int> <int> <list> <list>
1 SUBSTANTIAL SHAREHOLDERS 49 2010 <chr [3]> <list [3]>