运行 R 中跨多个文本文件的 korPus 文本挖掘函数

Question

我想运行库中的两个 R 函数 korPus 在一堆 txt 文件上。首先，我想 tokenize 或 treetag 这些文本，然后运行 MTLD 输出并将结果保存在单个文档中。我正在尝试使用 lapply 或 for loop 来执行此操作。这两个命令的基本语法很简单：

tokenized_1 <- tokenize("txt", lang="en")
MLTD(tokenized_1)

我尝试了以下方法

files <- list.files(path="path/to/dir", pattern="*.txt", full.names=T, recursive=FALSE)
tokenized<-(lapply(files, tokenize, lang='en'))

但是，这会将所有结果合并到一个文件中，而我想分别查看所有文件。此外，它为 MTLD 函数创建了一个无效的 class。

我从 shell scripting 开始熟悉 for loop，我认为这可以满足我的要求，但是

for (i in files){tokenize(i, lang='en')}

什么都不做。我知道这是一种非常幼稚和简单的方法，但我不是一个非常有经验的 R 用户。

Answer 1

使用lapply

filenames <- list.files(pattern="*.txt")
text.tagged <- lapply(filenames, function(x) treetag(x, treetagger="manual", lang="en",
                                                     TT.options=list(path=filepath, preset="en")))

text.tagged[1]

运行 R 中跨多个文本文件的 korPus 文本挖掘函数

Running a korPus text-mining function across multiple text files in R

for-loop

r

tokenize

pos-tagger

lapply