在整个语料库上训练 W2V 模型是否合适?

Is it appropriate to train W2V model on entire corpus?

我有一个自由文本医学叙述语料库,我打算将其用于分类任务,现在大约有 4200 条记录。

首先,我希望使用 w2v 创建词嵌入,但我对这项任务的训练测试拆分有疑问。

当我训练 w2v 模型时,将所有数据用于模型创建是否合适?还是我应该只使用火车数据来创建模型?

真的,我的问题归结为:我是获取整个数据集,创建 w2v 模型,用模型转换叙述,然后拆分,还是应该拆分,创建 w2v,然后转换两组独立?

谢谢!

编辑

我在我的工作地点发现了一个由供应商构建的内部项目;他们创建拆分,并仅在训练数据上创建 w2v 模型,然后在不同的作业中独立转换两组;所以这是我上面指定的两个选项中的后者。这就是我的想法,因为我不想在任何测试数据上污染 w2v 模型。

NLP 中大多数此类问题的答案是 "try both" :-)

测试数据与训练数据的污染无关紧要,或者是生成词向量的问题。这是您使用向量的模型中的一个相关问题。我发现在我的用例中使用整个语料库向量的性能更好。

词向量的质量随着数据的增加而提高。如果您不使用测试语料库,您将需要一种方法来初始化词汇外向量并了解它们可能对您的模型性能产生的影响。