为什么 word2vec 不使用正则化？

Why word2vec doesn't use regularization?

具有大量参数的 ML 模型往往会过度拟合（因为它们具有很大的方差）。在我看来，word2vec 就是这样一种模式。减少模型方差的方法之一是应用正则化技术，这对于其他嵌入模型来说非常常见，例如矩阵分解。但是，word2vec 的基本版本没有任何正则化部分。这有什么原因吗？

这是个有趣的问题。

我会说 Word2Vec 中的过度拟合 没有多大意义，因为词嵌入的目标是尽可能准确地匹配词的出现分布。 Word2Vec 不是为了学习训练词汇之外的任何东西，即 generalize，而是为了近似由文本语料库定义的一种分布。从这个意义上说，Word2Vec 实际上是在尝试精确拟合，所以它不能 over-fit。

如果您的词汇量很小，则可以计算共现矩阵并找到嵌入（给定大小）的精确全局最小值，即获得完美拟合，这将定义这种固定语言的最佳上下文词模型。

为什么 word2vec 不使用正则化？

Why word2vec doesn't use regularization?

nlp

machine-learning

embedding

regularized

word2vec