让 R 识别一个充满 Word 文件的文件以进行 koRpus 分析

getting R to recognize a file full of Word files for koRpus analysis

我需要一些帮助来将文本文件数据加载到 R 中,以便使用 koRpus 等包进行分析。

我面临的问题是让 R 将一个装满 Word 文件(大约 4,000 个)的文件夹识别为数据,然后我可以让 koRpus 执行像 Coleman-Liau 索引这样的分析。如果可能的话,我更愿意使用 Word 文件来完成这项工作。关键问题是很难让 R 批量识别文本 (Word) 文件(即同时识别所有文件),以便 koRpus 可以处理这些文件。

我试图使这项工作全部失败,但我知道如果没有办法让软件包在大量文件上完成工作,那么像 koRpus 这样的软件包的用途将受到限制一次。

我希望这个问题对某人有意义,并且有一个可行的解决方案。

谢谢, 戈登

看起来 readtext 软件包应该可以帮助您。

library(readtext)

只需在 readtext() 调用中指定文件夹即可。像这样:

doc_df <- 
  readtext("doc_files/")

我不熟悉 koRpus 包,但是 text 专栏 在创建的数据框中应包含进一步所需的内容 您要使用的功能。

doc_df$text
#> [1] "Test1: a little bit of text" "Test2: no further text"     
#> [3] "Test3: lorem ipsum bla bla" 

回复您的评论:

您的文件夹中似乎有多种文件,您正在尝试过滤它们,以便只处理 docx 个文件。 readtext 命令似乎支持那种过滤,但文档说,它取决于 OS。我的建议是在调用 readtext():

之前使用 R 的 dir() 命令过滤文件夹中的文件
a <- dir("doc_files/", pattern = "docx", full.names = TRUE)
doc_df <- readtext(a)