gensim word2vec word embedding如何为1个词的句子提取训练词对?

How does gensim word2vec word embedding extract training word pair for 1 word sentence?

参考下图(word2vec skipgram提取训练数据集的过程——输入句子中的词对)。

"I love you." ==> [(我,爱), (我,你)]

请问句子只有一个词时,词对是什么?

是"Happy!" ==> [(happy,happy)] ?

我测试了genism中的word2vec算法,当训练集句子中只有一个词时,(并且这个词不包含在其他句子中),word2vec算法仍然可以为这个特定的词构造一个嵌入向量.我不确定算法是如何做到这一点的。

===============更新============================= ==

作为下面贴出的答案,我认为为1-word-sentence中的单词创建的词嵌入向量只是神经网络权重的随机初始化。

不可能从 1 个单词的句子进行 word2vec 训练,因为没有相邻单词可用作输入来预测 center/target 个单词。本质上,这句话被跳过了。

如果那是该词在语料库中的唯一出现,并且您看到该词的向量,则它只是该词的开始随机初始化,没有进一步的训练。 (而且,您可能应该使用更高的 min_count,因为在 word2vec 中保留如此罕见的词通常是一个错误:它们不会得到好的向量,如果 'noise'从所有这些不够建模的稀有词中删除。)

如果那个只有 1 个词的句子实际上出现在你语料库中其他真实句子的旁边,那么将它与周围的文本结合起来可能是有意义的。对于这种从周围环境建模的实际句子并没有什么神奇之处——该算法只是在 'neighbors' 上工作,并且通常使用多句块作为训练文本,有时甚至使用标点符号(如句子-ending periods) 也保留为 'words'。然后来自一个实际独立句子的单词——但仍然通过出现在同一个文档中而相关——将出现在彼此的上下文中。