在解码过程中为词汇表外的单词使用 UNK 标记有什么意义？

What's the point to have a UNK token for out of vocabulary words during decoding?

首先，我知道这个问题有点跑题，但我已经尝试在别处问过，但没有得到回应。

在词汇表中添加一个UNK标记是NLP任务中处理oov词的常规方式。用它来编码完全可以理解，但是用它来解码有什么意义呢？我的意思是你永远不会期望你的解码器在预测期间生成一个 UNK 令牌，对吧？

我曾在以下情况下使用过一次：

我有一个预处理的 word2vec(glove.6b.50d.txt) 并且我正在输出一个嵌入的向量，为了将它转换成一个词，我使用基于 word2vec 中所有向量的余弦相似度，如果最相似的矢量是我会输出它。

也许我只是在这里猜测，但我认为在幕后可能发生的事情是它根据之前的词进行预测（例如，它预测出现在 3 次迭代前的词）并且如果该词是神经网络net 输出它。

根据您预处理训练数据的方式，您可能在训练期间需要 UNK。即使你使用BPE或者其他分词，训练数据中也会出现OOV，通常是一些奇怪的UTF-8东西，字母表的碎片，你根本不感兴趣等等

例如，如果您使用 WMT 训练数据进行英德翻译，进行 BPE 并使用词汇表，您的词汇表将包含数千个在训练数据中恰好出现一次的汉字。即使您将它们保留在词汇表中，模型也没有机会了解它们，甚至无法复制它们。将它们表示为 UNKs.

是有意义的

当然，你通常在推理时做的是你阻止模型预测UNK个标记，UNK总是不正确的。