R:如何统计一个语料库中的token总数?
R: How to count the total number of tokens in a corpus?
我创建了一个名为 readtext_corpus 的 Quanteda 语料库,其中包含 190 种文本。我想计算语料库中标记或单词的总数。我尝试了 ntoken 函数,它给出了每个文本的单词数,而不是所有 190 个文本的单词总数。
你可以只使用 sum() 函数,它非常简单。我留下了一个例子:
test <- c("testing string number 1","testing string number 2")
sum(quanteda::ntoken(test))
结果:
> quanteda::ntoken(test)
text1 text2
4 4
> sum(quanteda::ntoken(test))
[1] 8
>
如果您使用管道,这在 quanteda 中很常见
> quanteda::ntoken(test) %>% sum()
[1] 8
我创建了一个名为 readtext_corpus 的 Quanteda 语料库,其中包含 190 种文本。我想计算语料库中标记或单词的总数。我尝试了 ntoken 函数,它给出了每个文本的单词数,而不是所有 190 个文本的单词总数。
你可以只使用 sum() 函数,它非常简单。我留下了一个例子:
test <- c("testing string number 1","testing string number 2")
sum(quanteda::ntoken(test))
结果:
> quanteda::ntoken(test)
text1 text2
4 4
> sum(quanteda::ntoken(test))
[1] 8
>
如果您使用管道,这在 quanteda 中很常见
> quanteda::ntoken(test) %>% sum()
[1] 8