R：如何统计一个语料库中的token总数？

Question

我创建了一个名为 readtext_corpus 的 Quanteda 语料库，其中包含 190 种文本。我想计算语料库中标记或单词的总数。我尝试了 ntoken 函数，它给出了每个文本的单词数，而不是所有 190 个文本的单词总数。

Answer 1

你可以只使用 sum() 函数，它非常简单。我留下了一个例子：

test <- c("testing string number 1","testing string number 2")

sum(quanteda::ntoken(test))

结果：

> quanteda::ntoken(test)
text1 text2 
    4     4 
> sum(quanteda::ntoken(test))
[1] 8
>

如果您使用管道，这在 quanteda 中很常见

> quanteda::ntoken(test) %>% sum()
[1] 8

R: How to count the total number of tokens in a corpus?