试图了解线性回归中的期望值

Trying to understand expected value in Linear Regression

我无法理解学校机器学习课程中的讲座幻灯片

为什么Y的期望值= f(X)?这是什么意思

我的理解是 X、Y 是向量,f(X) 输出 Y 的向量,其中 Y 向量中的每个单独值 (y_i) 对应于 f(x_i) 其中x_i 是 X 中索引 i 处的值;但是现在它取 Y 的期望值,它将是一个单一的值,那么它如何等于 f(X)?

X、Y(大写)是向量

x_i,y_i(带下标的小写)是 X,Y

中索引 i 处的标量

这里有很多混乱。首先让我们从定义开始

定义

  1. 期望算子E[.]:以一个随机变量作为输入,给出一个scalar/vector作为输出。假设 Y 是一个正态分布的随机变量,其均值 Mu 和方差 Sigma^{2}(通常表示为: Y ~ N( Mu , Sigma^{2} ), 然后 E[Y] = Mu

  2. 函数 f(.):接受一个 scalar/vector(不是随机变量)并给出一个 scalar/vector。在这种情况下,它是一个仿射函数,即 f(X) = a*X + b 其中 a 和 b 是固定常数。

发生了什么事

现在您可以从两个角度查看线性回归。

统计视图

一个角度假定您的响应 variable-Y- 是一个正态分布的随机变量,因为:

Y ~ a*X + b + epsilon

哪里

epsilon ~ N( 0 , sigma^sq )

X 是其他分布。我们并不真正关心 X 是如何分配的,而是将其视为给定的。在那种情况下,条件分布是

Y|X ~ N( a*X + b , sigma^sq )

注意这里a,b 还有 X是一个数字,它们没有随机性。

数学视图

另一种观点是数学观点,我假设有一个函数 f(.) 支配现实生活过程,如果在现实生活中我观察到 X,那么 f(X) 应该是输出。当然,情况并非如此,并且假定偏差是由各种原因引起的,例如量规误差等。声称此函数是线性的: f(X) = a*X + b

合成

现在我们如何结合这些?嗯,如下: E[Y|X] = a*X + b = f(X)

关于你的问题,我首先想挑战一下,它应该是 Y|X 而不是 Y 本身。

其次,关于这里的每个术语在现实生活中代表什么,存在大量可能的本体论讨论。 X,Y(大写)可以是向量。 X,Y(大写)也可以是随机变量。这些随机变量的样本可能存储在向量中,并且都用大写字母表示(最好的方法是为每个变量使用不同的字体)。在这种情况下,您的样本将成为您的数据。关于模型的一般观点及其与现实生活的相关性的讨论应该在随机变量水平上进行。推断参数的方式、线性回归算法的工作原理应该在矩阵和向量级别进行。可能会有其他讨论,你应该关心这两个问题。

希望这个过于零散的回答对您有所帮助。一般来说,如果你想学习这些东西,请确保你知道你正在处理什么样的数学对象和运算符,它们将什么作为输入以及它们与现实生活的相关性。