skip-gram 模型的输出是什么样的？

What would the output of skip-gram model look like?

据我了解，skip-gram 模型的输出必须与许多训练标签进行比较（取决于 window 大小）

我的问题是：skip-gram模型的最终输出是不是像这张图描述的那样？

Ps。我能找到的最相似的问题：[1]What does the multiple outputs in skip-gram mean?

很难回答在 degenerate/toy/artificial 情况下“应该”发生什么，尤其是考虑到在实际 initialization/training.

中使用了多少随机性

模型的内部权重和 'projection layer'（又名 'input vectors' 或只是 'word vectors'）都通过反向传播进行了更改。因此，如果不考虑投影权重的初始化和更新，就无法回答内部权重应该是什么。只有两个训练示例没有任何意义，而不是“比模型状态近似的示例更多”。

如果您认为自己构建了一个在运行时可以提供信息的小案例，我建议您针对实际实施尝试一下，看看会发生什么。

但要注意：微型模型和训练集可能很奇怪，或者允许 multiple/overfit/idiosyncratic 最终状态，其方式不会揭示算法在以其预期方式使用时的行为方式– 在大量不同的训练数据上。