如何将多个 pdf 转换为语料库以在 R 中进行文本分析？

Question

我有一个非常基本的问题，因为我是一个绝对的初学者。我试图在网上寻求帮助并阅读不同的教程和手册，但找不到答案。

我的项目很简单。我有几十个 pdf（存储在一个文件夹中），我想分析它们的内容（无监督学习）。最终目标是主题分析。现在的问题是：我能找到的每个指南都直接跳转到这些文本的预处理，而没有经过将这些文件加载到 R 和定义语料库的第一步。

所以，基本上，我想在一个数据框中分解所有这些 pdf 以进行分析，但我错过了将它们加载到 R 中的第一步。

如有任何帮助，我们将不胜感激。

Answer 1

有多种方法，但如果您想将其放入语料库，有一种简单的方法可以做到。它确实需要安装 pdftools 包 (install.packages("pdftools"))，因为它将成为用于读取 pdf 的引擎。那么就是使用tm包将所有内容读入语料库的问题了。

library(tm)

directory <- getwd() # change this to directory where files are located

# read the pdfs with readPDF, default engine used is pdftools see ?readPDF for more info
my_corpus <- VCorpus(DirSource(directory, pattern = ".pdf"), 
                               readerControl = list(reader = readPDF))

如何将多个 pdf 转换为语料库以在 R 中进行文本分析？

How do I convert multiple pdf's into a corpus for text analysis in R?

nlp

r

topic-modeling