skip-gram 模型的输出是什么样的?
What would the output of skip-gram model look like?
据我了解,skip-gram 模型的输出必须与许多训练标签进行比较(取决于 window 大小)
我的问题是:skip-gram模型的最终输出是不是像这张图描述的那样?
Ps。我能找到的最相似的问题:[1]What does the multiple outputs in skip-gram mean?
很难回答在 degenerate/toy/artificial 情况下“应该”发生什么,尤其是考虑到在实际 initialization/training.
中使用了多少随机性
模型的内部权重 和 'projection layer'(又名 'input vectors' 或只是 'word vectors')都通过反向传播进行了更改。因此,如果不考虑投影权重的初始化和更新,就无法回答内部权重应该是什么。只有两个训练示例没有任何意义,而不是“比模型状态近似的示例更多”。
如果您认为自己构建了一个在 运行 时可以提供信息的小案例,我建议您针对实际实施尝试一下,看看会发生什么。
但要注意:微型模型和训练集可能很奇怪,或者允许 multiple/overfit/idiosyncratic 最终状态,其方式不会揭示算法在以其预期方式使用时的行为方式– 在大量不同的训练数据上。
据我了解,skip-gram 模型的输出必须与许多训练标签进行比较(取决于 window 大小)
我的问题是:skip-gram模型的最终输出是不是像这张图描述的那样?
Ps。我能找到的最相似的问题:[1]What does the multiple outputs in skip-gram mean?
很难回答在 degenerate/toy/artificial 情况下“应该”发生什么,尤其是考虑到在实际 initialization/training.
中使用了多少随机性模型的内部权重 和 'projection layer'(又名 'input vectors' 或只是 'word vectors')都通过反向传播进行了更改。因此,如果不考虑投影权重的初始化和更新,就无法回答内部权重应该是什么。只有两个训练示例没有任何意义,而不是“比模型状态近似的示例更多”。
如果您认为自己构建了一个在 运行 时可以提供信息的小案例,我建议您针对实际实施尝试一下,看看会发生什么。
但要注意:微型模型和训练集可能很奇怪,或者允许 multiple/overfit/idiosyncratic 最终状态,其方式不会揭示算法在以其预期方式使用时的行为方式– 在大量不同的训练数据上。