为什么我们需要正则化来训练 MaxEnt？

why do we need regularization for training MaxEnt?

我正在阅读 jurafsky 的 NLP 书籍，其中提到要训练 MaxEnt，我们需要调整权重以防止过度拟合。但我不明白为什么会这样。如果我们不使用正则化，任何人都可以解释在训练 maxent 期间如何发生过度拟合吗？

我没有读过那本书，但作为机器学习的从业者，我可以告诉你，任何类型的模型都可能出现过拟合。 MaxEnt 也不例外。

您可能应该问的问题是，"What is overfitting, and what causes it?"

查看：Distinguishing overfitting vs good prediction

当您尝试估计过多的系数时，或者更普遍地说，考虑到您正在使用的训练数据量，模型过于灵活，往往会出现过度拟合。结果是您的模型将 "learn" 数据中的噪声，降低样本外的预测准确性。

有两种处理过度拟合的方法。 (1) 获得更多训练数据，或 (2) 降低模型的复杂性。正则化属于第 (2) 类，通过惩罚 "complex" 个解来工作，从而减少方差。 "complex" 的含义因模型类型而异。

在线和入门 ML 教科书中有大量关于过度拟合和正则化的内容 material。如果您想要一个通俗易懂的解释，我建议您阅读 Abu-Mostafa 的《从数据中学习》。