我应该使用 word2vec 进行包含测试数据的词嵌入吗？

Should I use word2vec to do word embedding including testing data?

我是NLP的新人，我正在尝试做文本分类工作。在做这项工作之前，我知道我们应该做词嵌入。我的问题是我应该只在训练数据上做词嵌入工作（以便测试数据只从训练数据的预训练 vec 模型中获取向量），还是同时在训练数据和测试上做数据？

这是一个非常重要的问题。在 NN 社区中，人们通常做的是在训练集中使用一个阈值（即频率 < = 2），并将所有出现次数少于该阈值的单词替换为 UNK 令牌。然后在测试的时候，如果有一个词与实际训练集的词不匹配，UNK的表示将替换它。