Gensim 是否处理 W2V 模型中的 pad 索引和 UNK 索引?

Does Gensim handling pad index and UNK index in W2V models?

我正在使用 Gensim 构建 W2V 模型,但我没有找到在 Gensim 中为未知词或填充部分添加向量的方法,我必须手动完成。 我还在创建的嵌入中检查 0 的索引,它也用于特定的单词。这件事可能会导致填充词出现问题,因为它们具有相同的索引。

我是不是漏掉了什么? Gensim 能处理这个问题吗?

P.S:为了处理这个问题,我总是在训练模型后在模型权重中附加两个向量。

Gensim Word2Vec 模型仅学习和报告它在训练期间学习的单词的向量。

如果您想让它学习任何合成 'unknown' 或 'padding' 符号的向量,您需要将它们包含在训练数据中。 (不过,它们可能不是非常 interesting/useful 向量值,并且拥有这样的合成标记向量可能不会胜过简单地忽略未知标记或完全避免人工填充。)