gensim KeyedVectors 对象字数统计
gensim KeyedVectors object word count
我加载了一个 KeyedVectors 模型,词频看起来像词索引
我想念什么?
load_word2vec_format()
加载的单文件格式不包括字数——因此它们不会出现在加载的对象中。
不过,通常的惯例是将此类文件按最频繁到最不频繁的顺序排列。因此,在没有真实计数信息的情况下,将使用从词汇表大小减少到 1 的插入值。(这个数字有点像您看到的单词索引。)
某些软件中有一种方法可以将额外信息保存在单独的文件中——请参阅 gensim 的 save_word2vec_format()
和 load_word2vec_format()
的 fvocab
选项。所以也许这已经可以用于您的载体,您可以使用该选项。
我加载了一个 KeyedVectors 模型,词频看起来像词索引
我想念什么?
load_word2vec_format()
加载的单文件格式不包括字数——因此它们不会出现在加载的对象中。
不过,通常的惯例是将此类文件按最频繁到最不频繁的顺序排列。因此,在没有真实计数信息的情况下,将使用从词汇表大小减少到 1 的插入值。(这个数字有点像您看到的单词索引。)
某些软件中有一种方法可以将额外信息保存在单独的文件中——请参阅 gensim 的 save_word2vec_format()
和 load_word2vec_format()
的 fvocab
选项。所以也许这已经可以用于您的载体,您可以使用该选项。