运行 R 中跨多个文本文件的 korPus 文本挖掘函数
Running a korPus text-mining function across multiple text files in R
我想 运行 库中的两个 R 函数 korPus
在一堆 txt
文件上。首先,我想 tokenize
或 treetag
这些文本,然后 运行 MTLD
输出并将结果保存在单个文档中。我正在尝试使用 lapply
或 for loop
来执行此操作。这两个命令的基本语法很简单:
tokenized_1 <- tokenize("txt", lang="en")
MLTD(tokenized_1)
我尝试了以下方法
files <- list.files(path="path/to/dir", pattern="*.txt", full.names=T, recursive=FALSE)
tokenized<-(lapply(files, tokenize, lang='en'))
但是,这会将所有结果合并到一个文件中,而我想分别查看所有文件。此外,它为 MTLD
函数创建了一个无效的 class。
我从 shell scripting
开始熟悉 for loop
,我认为这可以满足我的要求,但是
for (i in files){tokenize(i, lang='en')}
什么都不做。我知道这是一种非常幼稚和简单的方法,但我不是一个非常有经验的 R
用户。
使用lapply
filenames <- list.files(pattern="*.txt")
text.tagged <- lapply(filenames, function(x) treetag(x, treetagger="manual", lang="en",
TT.options=list(path=filepath, preset="en")))
text.tagged[1]
我想 运行 库中的两个 R 函数 korPus
在一堆 txt
文件上。首先,我想 tokenize
或 treetag
这些文本,然后 运行 MTLD
输出并将结果保存在单个文档中。我正在尝试使用 lapply
或 for loop
来执行此操作。这两个命令的基本语法很简单:
tokenized_1 <- tokenize("txt", lang="en")
MLTD(tokenized_1)
我尝试了以下方法
files <- list.files(path="path/to/dir", pattern="*.txt", full.names=T, recursive=FALSE)
tokenized<-(lapply(files, tokenize, lang='en'))
但是,这会将所有结果合并到一个文件中,而我想分别查看所有文件。此外,它为 MTLD
函数创建了一个无效的 class。
我从 shell scripting
开始熟悉 for loop
,我认为这可以满足我的要求,但是
for (i in files){tokenize(i, lang='en')}
什么都不做。我知道这是一种非常幼稚和简单的方法,但我不是一个非常有经验的 R
用户。
使用lapply
filenames <- list.files(pattern="*.txt")
text.tagged <- lapply(filenames, function(x) treetag(x, treetagger="manual", lang="en",
TT.options=list(path=filepath, preset="en")))
text.tagged[1]