如何将多个 pdf 转换为语料库以在 R 中进行文本分析?

How do I convert multiple pdf's into a corpus for text analysis in R?

我有一个非常基本的问题,因为我是一个绝对的初学者。我试图在网上寻求帮助并阅读不同的教程和手册,但找不到答案。

我的项目很简单。我有几十个 pdf(存储在一个文件夹中),我想分析它们的内容(无监督学习)。最终目标是主题分析。现在的问题是:我能找到的每个指南都直接跳转到这些文本的预处理,而没有经过将这些文件加载​​到 R 和定义语料库的第一步。

所以,基本上,我想在一个数据框中分解所有这些 pdf 以进行分析,但我错过了将它们加载到 R 中的第一步。

如有任何帮助,我们将不胜感激。

有多种方法,但如果您想将其放入语料库,有一种简单的方法可以做到。它确实需要安装 pdftools 包 (install.packages("pdftools")),因为它将成为用于读取 pdf 的引擎。那么就是使用tm包将所有内容读入语料库的问题了。

library(tm)

directory <- getwd() # change this to directory where files are located

# read the pdfs with readPDF, default engine used is pdftools see ?readPDF for more info
my_corpus <- VCorpus(DirSource(directory, pattern = ".pdf"), 
                               readerControl = list(reader = readPDF))