我应该使用来自训练、验证和测试语料库的数据来训练嵌入吗?

Should I train embeddings using data from both training,validating and testing corpus?

我的领域没有任何预训练词嵌入(越南美食评论)。所以我想到了从一般语料库和特定语料库进行嵌入。

这里的重点是我可以使用训练、测试和验证(预处理)的数据集作为创建我自己的词嵌入的来源。如果没有,希望你能给出你的经验。

根据我的直觉和一些实验,似乎语料库越宽越好,但我想知道是否有相关研究或其他相关结果。

can I use the dataset of training, test and validating (did preprocess) as a source for creating my own word embeddings

当然,嵌入不是您的机器学习模型的特征。它们是您数据的 "computational representation"。简而言之,它们由向量 space 中表示的单词组成。使用嵌入,您的数据不那么稀疏。使用词嵌入可以被视为 NLP 预处理步骤的一部分。

通常(我的意思是,使用最常用的技术 word2vec),向量 space 中的单词表示由其周围环境(通常伴随的单词)定义。

因此,要创建嵌入,语料库越大越好,因为它可以更好地将词向量放入向量space(并因此进行比较其他类似的词)。