从线性回归模型中的相同输入预测不同的值?
Predict different values from same inputs in a linear regressor model?
假设我有一个嘈杂的二维数据集,观察数据的人可以轻松地在数据中画一条直线,从而使均方误差最小化。
线的模型具有 y = mx + b
的形式,其中 x
是输入值,y
是模型的预测值,m
和 b
是经过训练的变量以最小化成本。
我的问题是,如果我们将一些输入 x1
插入模型,它将始终输出相同的数字,而不考虑数据的稀疏程度。像这样的模型如何根据相同的输入预测不同的值?
也许这可以将所有错误从模型线带到点,对它们进行分布,取这种分布的期望值,然后将该值添加到 y
?
如果数据是二维的,并且可以用直线完美建模,那么就没有基于数据或基于统计的理由不声称该过程是完全确定的,而你 should 输出一个值。
但是,如果您有更多的维度,或者您的拟合不完美(误差最小化但不是 0),那么您所追求的要么是预测值的 分布,要么至少 置信区间 。有许多概率模型可以模拟输出的分布而不是单个值。特别是线性回归会这样做,它假设您的预测存在高斯误差,因此一旦获得 MSE "A",您就可以有效地从 N(mx+b, A) 中得出预测 - 这很容易当 A=0 时,请参阅退化为确定性模型。这些预测在期望上是最优的,它们只是你根据模型 "simulating observations" 的方式。还有元方法,如果您将预测器视为黑盒 - 您可以在数据子集上训练多个模型,并将它们的预测视为样本以适应分布(再次为简单起见,它可以是单个高斯分布)。
假设我有一个嘈杂的二维数据集,观察数据的人可以轻松地在数据中画一条直线,从而使均方误差最小化。
线的模型具有 y = mx + b
的形式,其中 x
是输入值,y
是模型的预测值,m
和 b
是经过训练的变量以最小化成本。
我的问题是,如果我们将一些输入 x1
插入模型,它将始终输出相同的数字,而不考虑数据的稀疏程度。像这样的模型如何根据相同的输入预测不同的值?
也许这可以将所有错误从模型线带到点,对它们进行分布,取这种分布的期望值,然后将该值添加到 y
?
如果数据是二维的,并且可以用直线完美建模,那么就没有基于数据或基于统计的理由不声称该过程是完全确定的,而你 should 输出一个值。
但是,如果您有更多的维度,或者您的拟合不完美(误差最小化但不是 0),那么您所追求的要么是预测值的 分布,要么至少 置信区间 。有许多概率模型可以模拟输出的分布而不是单个值。特别是线性回归会这样做,它假设您的预测存在高斯误差,因此一旦获得 MSE "A",您就可以有效地从 N(mx+b, A) 中得出预测 - 这很容易当 A=0 时,请参阅退化为确定性模型。这些预测在期望上是最优的,它们只是你根据模型 "simulating observations" 的方式。还有元方法,如果您将预测器视为黑盒 - 您可以在数据子集上训练多个模型,并将它们的预测视为样本以适应分布(再次为简单起见,它可以是单个高斯分布)。