gensim 模型中矢量值的范围

Question

我正在使用 model.wv 从 word2vec 模型中提取词嵌入向量。此向量中每个元素的取值范围是多少？

import gensim

word2vec_model = gensim.models.Word2Vec.load("testModel")
word2vec_model.wv["increase"] #What is range of values for each vector element?

似乎无法在文档中找到此信息。

Answer 1

向量的每个维度都是32位浮点值。

除此之外没有任何必要的或强制的限制，尽管训练过程使得各个维度往往不会 "very large" – 通常保持在 -1.0 和 1.0 之间的范围内。

在将词向量与其他类似归一化的词向量进行比较之前，将词向量标准化为 1.0 的大小是很常见的（但并非对所有应用程序都是必需的或有益的）。

您可以使用 word_vec() 方法的 use_norm 参数请求这样一个单位标准化版本的词向量：

model.wv.word_vec(word, use_norm=True)

在这样的单位赋范向量中，没有一个维度会超出-1.0 到 1.0 的范围。

gensim 模型中矢量值的范围

Range for vector values in gensim model

gensim

word2vec