最大似然估计到底是什么意思？

Question

当我们训练我们的模型时，我们通常使用 MLE 来估计我们的模型。我知道这意味着这种学习模型最可能的数据是我们的训练集。但是我想知道它的概率是否完全匹配1？

Answer 1

你几乎是对的。观察数据 (X) 的模型 (theta) 的似然是观察 X 的概率，给定 theta:

L(theta|X) = P(X|theta)

对于最大似然估计 (MLE)，您选择提供 P(X|theta) 最大值的 theta 值。这并不一定意味着 X 的观测值最有可能用于 theta 的 MLE 估计。这只是意味着 theta 没有其他值可以为 X.

的观察值提供更高的概率

换句话说，如果 T1 是 theta 的 MLE 估计，如果 T2 是 theta 的任何其他可能值，则 P(X|T1) > P(X|T2).但是，仍然可能存在不同于观测数据 (X) 的另一个可能数据值 (Y)，例如 P(Y|T1) > P(X|T1)。

theta 的 MLE 估计的 X 的概率不一定为 1（并且可能永远不会是，除了微不足道的情况）。这是预期的，因为 X 可以取多个具有非零概率的值。

Answer 2

根据 bogatron 所说的示例，从 MLE 中学习的参数是最能解释您看到的数据（而不是其他）的参数。不，概率不是 1（在微不足道的情况下除外）。

举个例子（已被使用数十亿次）MLE 所做的是：

如果你有一个简单的抛硬币问题，你观察了 5 个抛硬币的结果 (H, H, H, T, H) 并且你做 MLE，你最终会给出 p(coin_toss == H) 高概率 (0.80) 因为您看到正面的次数太多了。 MLE 显然有好有坏...

优点：这是一个优化问题，因此通常可以很快求解（即使没有解析解）。缺点：当数据不多时（比如我们的抛硬币示例），它可能会过度拟合。

Answer 3

我在统计类中得到的示例如下：

A suspect is on the run ! Nothing is known about them, except that they're approximatively 1m80 tall. Should the police look for a man or a woman ?

这里的想法是，您的模型有一个参数 (M/F)，并且给定该参数的概率。有高男人，高女人，矮男人和矮女人。但是，在没有任何其他信息的情况下，男性为 1m80 的概率大于女性为 1m80 的概率。可能性（正如 bogatron 很好地解释的那样）是其形式化，最大可能性是基于更可能产生实际观察结果的有利参数的估计方法。

但这只是一个玩具示例，只有一个二进制变量...让我们稍微扩展一下：我扔了两个相同的骰子，它们的值之和是 7。我的骰子有多少面？好吧，我们都知道两个D6相加为7的概率是相当高的。但它也可能是 D4、D20、D100，...但是，P(7 | 2D6) > P(7 | 2D20) 和 P(7 | 2D6) > P(7 | 2D100)...，所以你可能估计我的死是6面的。这并不意味着它是真实的，但在没有任何其他信息的情况下，这是一个合理的估计。

更好，但我们还没有进入机器学习领域......让我们开始吧：如果你想在一些经验数据上拟合你的 umptillion 层神经网络，你可以考虑所有可能的参数化，并且他们每个人对 return 经验数据的可能性有多大。那是在探索无数维度 space，每个维度都有无限多的可能性，但是您可以将这些点中的每一个映射到一个可能性。然后使用这些参数来拟合您的网络是合理的：鉴于确实出现了经验数据，可以合理地假设它们在您的模型下应该可能。

这并不意味着您的参数很可能！只是在这些参数下，观察值是可能的。统计估计通常不是单一解决方案的封闭问题（比如求解方程式可能是，概率为 1），但我们需要找到最佳解决方案，根据 some公制。可能性就是这样一个指标，并且被广泛使用是因为它有一些有趣的特性：

这很直观
对于大量模型，计算、拟合和优化相当简单
对于正态变量（往往会突然出现 everywhere），MLE 给出与其他方法相同的结果，例如最小二乘估计
其根据条件概率的表述使得在贝叶斯框架中use/manipulate变得容易

最大似然估计到底是什么意思？

what does Maximum Likelihood Estimation exactly mean?

machine-learning

mle