R:如何统计一个语料库中的token总数?

R: How to count the total number of tokens in a corpus?

我创建了一个名为 readtext_corpus 的 Quanteda 语料库,其中包含 190 种文本。我想计算语料库中标记或单词的总数。我尝试了 ntoken 函数,它给出了每个文本的单词数,而不是所有 190 个文本的单词总数。

你可以只使用 sum() 函数,它非常简单。我留下了一个例子:

test <- c("testing string number 1","testing string number 2")

sum(quanteda::ntoken(test))

结果:

> quanteda::ntoken(test)
text1 text2 
    4     4 
> sum(quanteda::ntoken(test))
[1] 8
> 

如果您使用管道,这在 quanteda 中很常见

> quanteda::ntoken(test) %>% sum()
[1] 8