我应该使用来自训练、验证和测试语料库的数据来训练嵌入吗？

Should I train embeddings using data from both training,validating and testing corpus?

我的领域没有任何预训练词嵌入（越南美食评论）。所以我想到了从一般语料库和特定语料库进行嵌入。

这里的重点是我可以使用训练、测试和验证（预处理）的数据集作为创建我自己的词嵌入的来源。如果没有，希望你能给出你的经验。

根据我的直觉和一些实验，似乎语料库越宽越好，但我想知道是否有相关研究或其他相关结果。

can I use the dataset of training, test and validating (did preprocess) as a source for creating my own word embeddings

当然，嵌入不是您的机器学习模型的特征。它们是您数据的 "computational representation"。简而言之，它们由向量 space 中表示的单词组成。使用嵌入，您的数据不那么稀疏。使用词嵌入可以被视为 NLP 预处理步骤的一部分。

通常（我的意思是，使用最常用的技术 word2vec），向量 space 中的单词表示由其周围环境（通常伴随的单词）定义。

因此，要创建嵌入，语料库越大越好，因为它可以更好地将词向量放入向量space（并因此进行比较其他类似的词）。