为什么 First Attention 论文中没有使用词嵌入（Glove、word2vecetc）？

Why no word embeddings (Glove, word2vecetc) used in first attention paper?

我知道这是一篇 2014 年的论文，但是 github 上论文的当前实现也没有使用任何词嵌入？

为了尝试对论文进行编码，使用词嵌入是否合理？

简而言之——该模型确实使用了词嵌入，它们只是不像 Glove 或 word2vec 那样经过预训练的嵌入；相反，嵌入是随机初始化的，并与网络的其余部分一起联合训练。

在原始 Bahdanau 等人的 A.2 节中对网络的完整描述。在论文中，您会看到为编码器和解码器描述的单词嵌入矩阵 E。 B.1 节中也描述了它们是如何初始化的。

在您有足够数据的情况下，这通常与预训练嵌入效果一样好或更好。也就是说，在资源匮乏的环境中，它可以帮助使用预训练嵌入来初始化嵌入矩阵。 This paper 可能会帮助您更详细地探讨该想法。

此外，您关于当前实现不这样做的说法并不完全准确 - 虽然默认情况下嵌入通常是联合训练的，但许多现有的神经 MT 工具包可以选择使用 pre 初始化嵌入-训练有素的载体。例如，OpenNMT-py, Marian.