Word2Vec 和向量原点

Word2Vec and vector origin

我阅读了 Mikolov 等人关于 Word2Vec 的两篇论文（参见 here and here）。

我了解词向量的概念以及它们如何表示含义。但是，在训练神经网络时，我不明白最终的词向量是从哪里来的。输入是单词的单热编码，它试图预测另一个单词的单热编码。那么如何得到最终的n维词向量呢？

经过数周的搜索，我找到了答案。这对任何有兴趣了解 Word2Vec（和一般的词嵌入）而不是仅仅使用它的人都可能有用。

训练神经网络时，输入是一个单热向量，输出可以是单热向量的串联（或平均），这是你的上下文。中间是隐藏层。隐藏层有 d 个单元。所以 hidden 的输入是一个 |V| x d 矩阵。该矩阵中的每一行都是与单热向量中的非零单元相对应的词嵌入

例如，如果在 one-hot 向量中编码的单词是 [0, 0, 1, 0]，它将被转置到您的神经网络中。注意只有一个单元是非零的，所以只有那个输入单元会触发所有隐藏单元。所以矩阵中的第 3 行是我们唯一关心的行，因此词嵌入是矩阵中的一行。

希望对感兴趣的人有所帮助（也许只有我一个？）