gensim KeyedVectors 对象字数统计

gensim KeyedVectors object word count

我加载了一个 KeyedVectors 模型,词频看起来像词索引

我想念什么?

load_word2vec_format()加载的单文件格式不包括字数——因此它们不会出现在加载的对象中。

不过,通常的惯例是将此类文件按最频繁到最不频繁的顺序排列。因此,在没有真实计数信息的情况下,将使用从词汇表大小减少到 1 的插入值。(这个数字有点像您看到的单词索引。)

某些软件中有一种方法可以将额外信息保存在单独的文件中——请参阅 gensim 的 save_word2vec_format()load_word2vec_format()fvocab 选项。所以也许这已经可以用于您的载体,您可以使用该选项。