有没有办法从 doc2vec 模型中获取词汇量?
Is there any way to get the vocabulary size from doc2vec model?
我正在使用 gensim doc2vec
。我想知道是否有任何有效的方法可以从 doc2vec 了解词汇量。一种粗略的方法是计算总字数,但如果数据量很大(1GB或更多),那么这将不是一种有效的方法。
如果 model
是您经过训练的 Doc2Vec 模型,那么在应用您的 min_count
后幸存词汇表中唯一单词标记的数量可从以下位置获得:
len(model.wv.vocab)
经过训练的文档标签数量可从以下位置获得:
len(model.docvecs)
vocab的return数据类型是字典。使用 keys() 如下:
model.wv.vocab.keys()
这应该是 return 一个单词列表。
gensim 版本 4 的更新。您可以通过以下方式获得词汇量:
vocab_len = len(model.wv) #
查看此 Migrating to Gensim 4.0 页
我正在使用 gensim doc2vec
。我想知道是否有任何有效的方法可以从 doc2vec 了解词汇量。一种粗略的方法是计算总字数,但如果数据量很大(1GB或更多),那么这将不是一种有效的方法。
如果 model
是您经过训练的 Doc2Vec 模型,那么在应用您的 min_count
后幸存词汇表中唯一单词标记的数量可从以下位置获得:
len(model.wv.vocab)
经过训练的文档标签数量可从以下位置获得:
len(model.docvecs)
vocab的return数据类型是字典。使用 keys() 如下:
model.wv.vocab.keys()
这应该是 return 一个单词列表。
gensim 版本 4 的更新。您可以通过以下方式获得词汇量:
vocab_len = len(model.wv) #
查看此 Migrating to Gensim 4.0 页