最大似然估计到底是什么意思?
what does Maximum Likelihood Estimation exactly mean?
当我们训练我们的模型时,我们通常使用 MLE 来估计我们的模型。我知道这意味着这种学习模型最可能的数据是我们的训练集。但是我想知道它的概率是否完全匹配1?
你几乎是对的。观察数据 (X
) 的模型 (theta
) 的似然是观察 X
的概率,给定 theta
:
L(theta|X) = P(X|theta)
对于最大似然估计 (MLE),您选择提供 P(X|theta)
最大值的 theta
值。这并不一定意味着 X
的观测值最有可能用于 theta
的 MLE 估计。这只是意味着 theta
没有其他值可以为 X
.
的观察值提供更高的概率
换句话说,如果 T1
是 theta
的 MLE 估计,如果 T2
是 theta
的任何其他可能值,则 P(X|T1) > P(X|T2)
.但是,仍然可能存在不同于观测数据 (X
) 的另一个可能数据值 (Y
),例如 P(Y|T1) > P(X|T1)
。
theta
的 MLE 估计的 X
的概率不一定为 1(并且可能永远不会是,除了微不足道的情况)。这是预期的,因为 X
可以取多个具有非零概率的值。
根据 bogatron 所说的示例,从 MLE 中学习的参数是最能解释您看到的数据(而不是其他)的参数。不,概率不是 1(在微不足道的情况下除外)。
举个例子(已被使用数十亿次)MLE 所做的是:
如果你有一个简单的抛硬币问题,你观察了 5 个抛硬币的结果 (H, H, H, T, H) 并且你做 MLE,你最终会给出 p(coin_toss == H) 高概率 (0.80) 因为您看到正面的次数太多了。 MLE 显然有好有坏...
优点:这是一个优化问题,因此通常可以很快求解(即使没有解析解)。
缺点:当数据不多时(比如我们的抛硬币示例),它可能会过度拟合。
我在统计 类 中得到的示例如下:
A suspect is on the run ! Nothing is known about them, except that they're approximatively 1m80 tall. Should the police look for a man or a woman ?
这里的想法是,您的模型有一个参数 (M/F
),并且给定该参数的概率 。有高男人,高女人,矮男人和矮女人。但是,在没有任何其他信息的情况下,男性为 1m80 的概率大于女性为 1m80 的概率。可能性(正如 bogatron 很好地解释的那样)是其形式化,最大可能性是基于更 可能 产生实际观察结果的有利参数的估计方法。
但这只是一个玩具示例,只有一个二进制变量...让我们稍微扩展一下:我扔了两个相同的骰子,它们的值之和是 7。我的骰子有多少面?好吧,我们都知道两个D6相加为7的概率是相当高的。但它也可能是 D4、D20、D100,...但是,P(7 | 2D6) > P(7 | 2D20)
和 P(7 | 2D6) > P(7 | 2D100)
...,所以你可能 估计 我的死是6面的。这并不意味着它是真实的,但在没有任何其他信息的情况下,这是一个合理的估计。
更好,但我们还没有进入机器学习领域......让我们开始吧:如果你想在一些经验数据上拟合你的 umptillion 层神经网络,你可以考虑所有可能的参数化,并且 他们每个人对 return 经验数据的可能性有多大。那是在探索无数维度 space,每个维度都有无限多的可能性,但是您 可以 将这些点中的每一个映射到一个可能性。然后使用这些参数来拟合您的网络是合理的:鉴于确实出现了经验数据,可以合理地假设它们在您的模型下应该 可能 。
这并不意味着您的参数很可能!只是在这些参数下,观察值是可能的。统计估计通常不是单一解决方案的封闭问题(比如求解方程式可能是,概率为 1),但我们需要找到最佳解决方案,根据 some公制。可能性就是这样一个指标,并且被广泛使用是因为它有一些有趣的特性:
- 这很直观
- 对于大量模型,计算、拟合和优化相当简单
- 对于正态变量(往往会突然出现 everywhere),MLE 给出与其他方法相同的结果,例如最小二乘估计
- 其根据条件概率的表述使得在贝叶斯框架中use/manipulate变得容易
当我们训练我们的模型时,我们通常使用 MLE 来估计我们的模型。我知道这意味着这种学习模型最可能的数据是我们的训练集。但是我想知道它的概率是否完全匹配1?
你几乎是对的。观察数据 (X
) 的模型 (theta
) 的似然是观察 X
的概率,给定 theta
:
L(theta|X) = P(X|theta)
对于最大似然估计 (MLE),您选择提供 P(X|theta)
最大值的 theta
值。这并不一定意味着 X
的观测值最有可能用于 theta
的 MLE 估计。这只是意味着 theta
没有其他值可以为 X
.
换句话说,如果 T1
是 theta
的 MLE 估计,如果 T2
是 theta
的任何其他可能值,则 P(X|T1) > P(X|T2)
.但是,仍然可能存在不同于观测数据 (X
) 的另一个可能数据值 (Y
),例如 P(Y|T1) > P(X|T1)
。
theta
的 MLE 估计的 X
的概率不一定为 1(并且可能永远不会是,除了微不足道的情况)。这是预期的,因为 X
可以取多个具有非零概率的值。
根据 bogatron 所说的示例,从 MLE 中学习的参数是最能解释您看到的数据(而不是其他)的参数。不,概率不是 1(在微不足道的情况下除外)。
举个例子(已被使用数十亿次)MLE 所做的是:
如果你有一个简单的抛硬币问题,你观察了 5 个抛硬币的结果 (H, H, H, T, H) 并且你做 MLE,你最终会给出 p(coin_toss == H) 高概率 (0.80) 因为您看到正面的次数太多了。 MLE 显然有好有坏...
优点:这是一个优化问题,因此通常可以很快求解(即使没有解析解)。 缺点:当数据不多时(比如我们的抛硬币示例),它可能会过度拟合。
我在统计 类 中得到的示例如下:
A suspect is on the run ! Nothing is known about them, except that they're approximatively 1m80 tall. Should the police look for a man or a woman ?
这里的想法是,您的模型有一个参数 (M/F
),并且给定该参数的概率 。有高男人,高女人,矮男人和矮女人。但是,在没有任何其他信息的情况下,男性为 1m80 的概率大于女性为 1m80 的概率。可能性(正如 bogatron 很好地解释的那样)是其形式化,最大可能性是基于更 可能 产生实际观察结果的有利参数的估计方法。
但这只是一个玩具示例,只有一个二进制变量...让我们稍微扩展一下:我扔了两个相同的骰子,它们的值之和是 7。我的骰子有多少面?好吧,我们都知道两个D6相加为7的概率是相当高的。但它也可能是 D4、D20、D100,...但是,P(7 | 2D6) > P(7 | 2D20)
和 P(7 | 2D6) > P(7 | 2D100)
...,所以你可能 估计 我的死是6面的。这并不意味着它是真实的,但在没有任何其他信息的情况下,这是一个合理的估计。
更好,但我们还没有进入机器学习领域......让我们开始吧:如果你想在一些经验数据上拟合你的 umptillion 层神经网络,你可以考虑所有可能的参数化,并且 他们每个人对 return 经验数据的可能性有多大。那是在探索无数维度 space,每个维度都有无限多的可能性,但是您 可以 将这些点中的每一个映射到一个可能性。然后使用这些参数来拟合您的网络是合理的:鉴于确实出现了经验数据,可以合理地假设它们在您的模型下应该 可能 。
这并不意味着您的参数很可能!只是在这些参数下,观察值是可能的。统计估计通常不是单一解决方案的封闭问题(比如求解方程式可能是,概率为 1),但我们需要找到最佳解决方案,根据 some公制。可能性就是这样一个指标,并且被广泛使用是因为它有一些有趣的特性:
- 这很直观
- 对于大量模型,计算、拟合和优化相当简单
- 对于正态变量(往往会突然出现 everywhere),MLE 给出与其他方法相同的结果,例如最小二乘估计
- 其根据条件概率的表述使得在贝叶斯框架中use/manipulate变得容易