让 R 识别一个充满 Word 文件的文件以进行 koRpus 分析
getting R to recognize a file full of Word files for koRpus analysis
我需要一些帮助来将文本文件数据加载到 R 中,以便使用 koRpus 等包进行分析。
我面临的问题是让 R 将一个装满 Word 文件(大约 4,000 个)的文件夹识别为数据,然后我可以让 koRpus 执行像 Coleman-Liau 索引这样的分析。如果可能的话,我更愿意使用 Word 文件来完成这项工作。关键问题是很难让 R 批量识别文本 (Word) 文件(即同时识别所有文件),以便 koRpus 可以处理这些文件。
我试图使这项工作全部失败,但我知道如果没有办法让软件包在大量文件上完成工作,那么像 koRpus 这样的软件包的用途将受到限制一次。
我希望这个问题对某人有意义,并且有一个可行的解决方案。
谢谢,
戈登
看起来 readtext
软件包应该可以帮助您。
library(readtext)
只需在 readtext()
调用中指定文件夹即可。像这样:
doc_df <-
readtext("doc_files/")
我不熟悉 koRpus
包,但是 text
专栏
在创建的数据框中应包含进一步所需的内容
您要使用的功能。
doc_df$text
#> [1] "Test1: a little bit of text" "Test2: no further text"
#> [3] "Test3: lorem ipsum bla bla"
回复您的评论:
您的文件夹中似乎有多种文件,您正在尝试过滤它们,以便只处理 docx
个文件。 readtext
命令似乎支持那种过滤,但文档说,它取决于 OS。我的建议是在调用 readtext()
:
之前使用 R 的 dir()
命令过滤文件夹中的文件
a <- dir("doc_files/", pattern = "docx", full.names = TRUE)
doc_df <- readtext(a)
我需要一些帮助来将文本文件数据加载到 R 中,以便使用 koRpus 等包进行分析。
我面临的问题是让 R 将一个装满 Word 文件(大约 4,000 个)的文件夹识别为数据,然后我可以让 koRpus 执行像 Coleman-Liau 索引这样的分析。如果可能的话,我更愿意使用 Word 文件来完成这项工作。关键问题是很难让 R 批量识别文本 (Word) 文件(即同时识别所有文件),以便 koRpus 可以处理这些文件。
我试图使这项工作全部失败,但我知道如果没有办法让软件包在大量文件上完成工作,那么像 koRpus 这样的软件包的用途将受到限制一次。
我希望这个问题对某人有意义,并且有一个可行的解决方案。
谢谢, 戈登
看起来 readtext
软件包应该可以帮助您。
library(readtext)
只需在 readtext()
调用中指定文件夹即可。像这样:
doc_df <-
readtext("doc_files/")
我不熟悉 koRpus
包,但是 text
专栏
在创建的数据框中应包含进一步所需的内容
您要使用的功能。
doc_df$text
#> [1] "Test1: a little bit of text" "Test2: no further text"
#> [3] "Test3: lorem ipsum bla bla"
回复您的评论:
您的文件夹中似乎有多种文件,您正在尝试过滤它们,以便只处理 docx
个文件。 readtext
命令似乎支持那种过滤,但文档说,它取决于 OS。我的建议是在调用 readtext()
:
dir()
命令过滤文件夹中的文件
a <- dir("doc_files/", pattern = "docx", full.names = TRUE)
doc_df <- readtext(a)