关于word embedding(word2vec)的问题

Questions about word embedding(word2vec)

我正在尝试了解 word2vec(词嵌入)架构,对此我有几个问题:

first, why word2vec model is log-linear model? because it uses a soft max at output layer?

没错,softmax是一个对数线性分类模型。目的是在输出中获得可以被视为后验概率分布的值

second, why word2vec removes hidden layer? it just because of computational complexity? third, why word2ved don't use activation function? compare for NNLM(Neural Network Language Model).

我认为你的第二个和第三个问题是相关的,因为额外的隐藏层和激活函数会使模型变得比必要的更复杂。请注意,虽然没有明确制定激活,但我们可以将其视为线性分类函数。看起来 word2vec 模型尝试建模的依赖关系可以通过输入词之间的线性关系来实现。

添加非线性激活函数允许神经网络映射更复杂的函数,这反过来可能导致将输入拟合到不保留 word2vec 寻求的依赖关系的更复杂的东西上。

另请注意,线性输出不会饱和,这有助于基于梯度的学习。