Transformer 模型中的位置嵌入——它会改变单词的含义吗?
Positional Embedding in the Transformer model - does it change the word's meaning?
我正在阅读 Transformer 论文,位置嵌入让我想知道一件事:
假设单词“cat”被预训练为嵌入到单词向量[2,3,1,4]
。如果我们使用将向量变成新向量的位置编码,比如 [3,1,5,2]
,它不应该也改变 word2vec 矩阵中单词的含义吗?由于语料库很大,值的微小变化也可以改变其含义。
word2vec 和 Transformer 对待标记的方式完全不同。
word2vec 是 context-free 这意味着 bank
总是来自 word2vec 矩阵的一些固定向量,换句话说,bank
的向量不依赖于标记在句子.
另一方面,作为输入的 Transformer 接收 tokes 的嵌入和位置嵌入,为 token 添加位置感。否则,它作为 bag-of-words 而不是序列与文本相关。
我正在阅读 Transformer 论文,位置嵌入让我想知道一件事:
假设单词“cat”被预训练为嵌入到单词向量[2,3,1,4]
。如果我们使用将向量变成新向量的位置编码,比如 [3,1,5,2]
,它不应该也改变 word2vec 矩阵中单词的含义吗?由于语料库很大,值的微小变化也可以改变其含义。
word2vec 和 Transformer 对待标记的方式完全不同。
word2vec 是 context-free 这意味着 bank
总是来自 word2vec 矩阵的一些固定向量,换句话说,bank
的向量不依赖于标记在句子.
另一方面,作为输入的 Transformer 接收 tokes 的嵌入和位置嵌入,为 token 添加位置感。否则,它作为 bag-of-words 而不是序列与文本相关。