为什么 word2vec 不使用正则化?

Why word2vec doesn't use regularization?

具有大量参数的 ML 模型往往会过度拟合(因为它们具有很大的方差)。在我看来,word2vec 就是这样一种模式。减少模型方差的方法之一是应用正则化技术,这对于其他嵌入模型来说非常常见,例如矩阵分解。但是,word2vec 的基本版本没有任何正则化部分。这有什么原因吗?

这是个有趣的问题。

我会说 Word2Vec 中的过度拟合 没有多大意义,因为词嵌入的目标是尽可能准确地匹配词的出现分布。 Word2Vec 不是为了学习训练词汇之外的任何东西,即 generalize,而是为了近似由文本语料库定义的一种分布。从这个意义上说,Word2Vec 实际上是在尝试精确拟合,所以它不能 over-fit。

如果您的词汇量很小,则可以计算共现矩阵并找到嵌入(给定大小)的精确全局最小值,即获得完美拟合,这将定义这种固定语言的最佳上下文词模型。