有没有办法从 doc2vec 模型中获取词汇量?

Is there any way to get the vocabulary size from doc2vec model?

我正在使用 gensim doc2vec。我想知道是否有任何有效的方法可以从 doc2vec 了解词汇量。一种粗略的方法是计算总字数,但如果数据量很大(1GB或更多),那么这将不是一种有效的方法。

如果 model 是您经过训练的 Doc2Vec 模型,那么在应用您的 min_count 后幸存词汇表中唯一单词标记的数量可从以下位置获得:

len(model.wv.vocab)

经过训练的文档标签数量可从以下位置获得:

len(model.docvecs)

vocab的return数据类型是字典。使用 keys() 如下:

model.wv.vocab.keys()

这应该是 return 一个单词列表。

gensim 版本 4 的更新。您可以通过以下方式获得词汇量:

vocab_len = len(model.wv)  # 

查看此 Migrating to Gensim 4.0