让 R 识别一个充满 Word 文件的文件以进行 koRpus 分析

Question

我需要一些帮助来将文本文件数据加载到 R 中，以便使用 koRpus 等包进行分析。

我面临的问题是让 R 将一个装满 Word 文件（大约 4,000 个）的文件夹识别为数据，然后我可以让 koRpus 执行像 Coleman-Liau 索引这样的分析。如果可能的话，我更愿意使用 Word 文件来完成这项工作。关键问题是很难让 R 批量识别文本 (Word) 文件（即同时识别所有文件），以便 koRpus 可以处理这些文件。

我试图使这项工作全部失败，但我知道如果没有办法让软件包在大量文件上完成工作，那么像 koRpus 这样的软件包的用途将受到限制一次。

我希望这个问题对某人有意义，并且有一个可行的解决方案。

谢谢，戈登

Answer 1

看起来 readtext 软件包应该可以帮助您。

library(readtext)

只需在 readtext() 调用中指定文件夹即可。像这样：

doc_df <- 
  readtext("doc_files/")

我不熟悉 koRpus 包，但是 text 专栏在创建的数据框中应包含进一步所需的内容您要使用的功能。

doc_df$text
#> [1] "Test1: a little bit of text" "Test2: no further text"     
#> [3] "Test3: lorem ipsum bla bla"

回复您的评论：

您的文件夹中似乎有多种文件，您正在尝试过滤它们，以便只处理 docx 个文件。 readtext 命令似乎支持那种过滤，但文档说，它取决于 OS。我的建议是在调用 readtext():

之前使用 R 的 dir() 命令过滤文件夹中的文件

a <- dir("doc_files/", pattern = "docx", full.names = TRUE)
doc_df <- readtext(a)

让 R 识别一个充满 Word 文件的文件以进行 koRpus 分析

getting R to recognize a file full of Word files for koRpus analysis

r

korpus