我应该使用 word2vec 进行包含测试数据的词嵌入吗?

Should I use word2vec to do word embedding including testing data?

我是NLP的新人,我正在尝试做文本分类工作。在做这项工作之前,我知道我们应该做词嵌入。 我的问题是我应该只在训练数据上做词嵌入工作(以便测试数据只从训练数据的预训练 vec 模型中获取向量),还是同时在训练数据和测试上做数据?

这是一个非常重要的问题。在 NN 社区中,人们通常做的是在训练集中使用一个阈值(即频率 < = 2),并将所有出现次数少于该阈值的单词替换为 UNK 令牌。然后在测试的时候,如果有一个词与实际训练集的词不匹配,UNK的表示将替换它。