是在整个训练集上还是在单个示例上计算可能性？

Question

假设我有一个 (x, y) 对的训练集，其中 x 是输入示例， y 是相应的目标， y 是一个值 (1 ... k)（k是类的个数）。

计算训练集的似然时，是否应该对整个训练集（所有的例子）进行计算，即：

L = P(y | x) = p(y1 | x1) * p(y2 | x2) * ...

或者是针对特定训练示例计算的可能性 (x, y)？

我问是因为我看到这些 lecture notes（第 2 页），他似乎在其中计算 L_i，这是每个训练示例的可能性。

Answer 1

似然函数描述了在给定一些参数的情况下生成一组训练数据的概率，可以用来找到那些以最大概率生成训练数据的参数。您可以为训练数据的子集创建似然函数，但这并不代表整个数据的似然。但是，您可以做的（以及在讲义中显然默默完成的）是假设您的数据是 independent and identically distributed (iid)。因此，您可以将联合概率函数拆分成更小的部分，即 p(x|theta) = p(x1|theta) * p(x2|theta) * ...（基于独立性假设），并且您可以对每个部分使用具有相同参数 (theta) 的相同函数，例如正态分布（基于同一性假设）。然后，您可以使用对数将乘积转换为总和，即 p(x|theta) = p(x1|theta) + p(x2|theta) + ...。该函数可以通过将其导数设置为零来最大化。得到的最大值是以最大概率创建 x 的 theta，即最大似然估计量。

是在整个训练集上还是在单个示例上计算可能性？

Is likelihood calculated over the whole training set or a single example?

machine-learning

probability

mle

language-model