运行 R 中跨多个文本文件的 korPus 文本挖掘函数

Running a korPus text-mining function across multiple text files in R

我想 运行 库中的两个 R 函数 korPus 在一堆 txt 文件上。首先,我想 tokenizetreetag 这些文本,然后 运行 MTLD 输出并将结果保存在单个文档中。我正在尝试使用 lapplyfor loop 来执行此操作。这两个命令的基本语法很简单:

tokenized_1 <- tokenize("txt", lang="en")
MLTD(tokenized_1)

我尝试了以下方法

files <- list.files(path="path/to/dir", pattern="*.txt", full.names=T, recursive=FALSE)
tokenized<-(lapply(files, tokenize, lang='en'))

但是,这会将所有结果合并到一个文件中,而我想分别查看所有文件。此外,它为 MTLD 函数创建了一个无效的 class。

我从 shell scripting 开始熟悉 for loop,我认为这可以满足我的要求,但是

for (i in files){tokenize(i, lang='en')}

什么都不做。我知道这是一种非常幼稚和简单的方法,但我不是一个非常有经验的 R 用户。

使用lapply

filenames <- list.files(pattern="*.txt")
text.tagged <- lapply(filenames, function(x) treetag(x, treetagger="manual", lang="en",
                                                     TT.options=list(path=filepath, preset="en")))

text.tagged[1]