使用 Countvectorizer 获取语料库中单词的总数

Get total count of aword in corpus using Countvectorizer

我有以下格式的语料库:

corpus = ['text_1', 'text_2', ... . 'text_4280']

总共有 90141 个不同的单词。 对于每个单词,我想计算它在 corpus.

中出现的总次数

为此,我使用了:

vectorizer = CountVectorizer(corpus)

目前,我知道这样做的唯一方法是:

vectorizer.fit_transform()

但是,这将创建一个形状为 (4280, 90141) 的(稀疏)Numpy 数组。 CountVectorizer 是否有更节省内存的方法来获取文档术语矩阵的所有列总和?

你可以使用

vectorizer.fit_transform().toarray().sum(axis= 0)

EDIT

我的错,你应该从上面的语句中删除 .toarray()。我没有意识到您可以在稀疏数组

上调用 .sum()
vectorizer.fit_transform().sum(axis= 0)