为什么我们需要正则化来训练 MaxEnt?

why do we need regularization for training MaxEnt?

我正在阅读 jurafsky 的 NLP 书籍,其中提到要训练 MaxEnt,我们需要调整权重以防止过度拟合。但我不明白为什么会这样。 如果我们不使用正则化,任何人都可以解释在训练 maxent 期间如何发生过度拟合吗?

我没有读过那本书,但作为机器学习的从业者,我可以告诉你,任何类型的模型都可能出现过拟合。 MaxEnt 也不例外。

您可能应该问的问题是,"What is overfitting, and what causes it?"

查看:Distinguishing overfitting vs good prediction

当您尝试估计过多的系数时,或者更普遍地说,考虑到您正在使用的训练数据量,模型过于灵活,往往会出现过度拟合。结果是您的模型将 "learn" 数据中的噪声,降低样本外的预测准确性。

有两种处理过度拟合的方法。 (1) 获得更多训练数据,或 (2) 降低模型的复杂性。正则化属于第 (2) 类,通过惩罚 "complex" 个解来工作,从而减少方差。 "complex" 的含义因模型类型而异。

在线和入门 ML 教科书中有大量关于过度拟合和正则化的内容 material。如果您想要一个通俗易懂的解释,我建议您阅读 Abu-Mostafa 的《从数据中学习》。