为什么 First Attention 论文中没有使用词嵌入(Glove、word2vecetc)?

Why no word embeddings (Glove, word2vecetc) used in first attention paper?

论文Neural Machine Translation by Jointly Learning to Align and Translate Bahdanau et. al.为什么没有使用Glove或word2vec等词嵌入?

我知道这是一篇 2014 年的论文,但是 github 上论文的当前实现也没有使用任何词嵌入?

为了尝试对论文进行编码,使用词嵌入是否合理?

简而言之——该模型确实使用了词嵌入,它们只是不像 Glove 或 word2vec 那样经过预训练的嵌入;相反,嵌入是随机初始化的,并与网络的其余部分一起联合训练。

在原始 Bahdanau 等人的 A.2 节中对网络的完整描述。在论文中,您会看到为编码器和解码器描述的单词嵌入矩阵 E。 B.1 节中也描述了它们是如何初始化的。

在您有足够数据的情况下,这通常与预训练嵌入效果一样好或更好。也就是说,在资源匮乏的环境中,它可以帮助使用预训练嵌入来初始化嵌入矩阵。 This paper 可能会帮助您更详细地探讨该想法。

此外,您关于当前实现不这样做的说法并不完全准确 - 虽然默认情况下嵌入通常是联合训练的,但许多现有的神经 MT 工具包可以选择使用 pre 初始化嵌入-训练有素的载体。例如,OpenNMT-py, Marian.