有没有办法从 doc2vec 模型中获取词汇量？

Question

我正在使用 gensim doc2vec。我想知道是否有任何有效的方法可以从 doc2vec 了解词汇量。一种粗略的方法是计算总字数，但如果数据量很大（1GB或更多），那么这将不是一种有效的方法。

Answer 1

如果 model 是您经过训练的 Doc2Vec 模型，那么在应用您的 min_count 后幸存词汇表中唯一单词标记的数量可从以下位置获得：

len(model.wv.vocab)

经过训练的文档标签数量可从以下位置获得：

len(model.docvecs)

Answer 2

vocab的return数据类型是字典。使用 keys() 如下：

model.wv.vocab.keys()

这应该是 return 一个单词列表。

Answer 3

gensim 版本 4 的更新。您可以通过以下方式获得词汇量：

vocab_len = len(model.wv)  #

Is there any way to get the vocabulary size from doc2vec model?