gensim vocab 索引是相应的 1-hot-vector 中的索引吗?

Is a gensim vocab index the index in the corresponding 1-hot-vector?

我正在进行的研究需要直接操作和嵌入单热向量,我正在尝试使用 gensim 为此加载预训练的 word2vec 模型。

问题是他们似乎没有直接 api 来处理 1-hot-vectors。我正在寻找解决方法。

所以我想知道是否有人知道这样做的方法?或者更具体地说,如果这些词汇索引(定义非常模糊)。可以是对应的 1-hot-vectors 的索引吗?

我找到的上下文:

############################################# ###

class gensim.models.keyedvectors.Vocab(**kwargs) 基地:对象

单个词汇项,在内部用于收集每个词的 frequency/sampling 信息,并用于构建二叉树(包括词叶和内部节点)。

############################################# ###

是的,您可以将 gensim 的 Word2Vec word-vectors 的 index(位置)视为 1.0 的一个维度 – 与所有其他 V维度,其中 V 是唯一单词的计数,即 0.0.

实现实际上并没有创建 one-hot 向量,作为稀疏或显式表示。它只是使用单词的索引作为其密集向量的 look-up – 遵循 gensim 实现最初基于的 Google word2vec.c 代码的路径。

(术语 'doctags' 仅与 Doc2Vec – 又名 'Paragraph Vector' – 实现相关。它是不同的 tokens/ints 的名称,用于查找 document-vectors,使用与 in-document 单词不同的名称空间。也就是说,在 Doc2Vec 中,您可以使用 'doc_007' 作为 doc-vector 名称,又名 'doctag',即使 string-token 'doc_007' 也作为一个词出现在文档中,doc-vector 被 doctag-key 'doc_007' 和 word-vector word-key 'doc_007' 引用的不是同一个内部向量。)