从线性回归模型中的相同输入预测不同的值？

Predict different values from same inputs in a linear regressor model?

假设我有一个嘈杂的二维数据集，观察数据的人可以轻松地在数据中画一条直线，从而使均方误差最小化。

线的模型具有 y = mx + b 的形式，其中 x 是输入值，y 是模型的预测值，m 和 b 是经过训练的变量以最小化成本。

我的问题是，如果我们将一些输入 x1 插入模型，它将始终输出相同的数字，而不考虑数据的稀疏程度。像这样的模型如何根据相同的输入预测不同的值？

也许这可以将所有错误从模型线带到点，对它们进行分布，取这种分布的期望值，然后将该值添加到 y?

如果数据是二维的，并且可以用直线完美建模，那么就没有基于数据或基于统计的理由不声称该过程是完全确定的，而你 should 输出一个值。

但是，如果您有更多的维度，或者您的拟合不完美（误差最小化但不是 0），那么您所追求的要么是预测值的分布，要么至少 置信区间 。有许多概率模型可以模拟输出的分布而不是单个值。特别是线性回归会这样做，它假设您的预测存在高斯误差，因此一旦获得 MSE "A"，您就可以有效地从 N(mx+b, A) 中得出预测 - 这很容易当 A=0 时，请参阅退化为确定性模型。这些预测在期望上是最优的，它们只是你根据模型 "simulating observations" 的方式。还有元方法，如果您将预测器视为黑盒 - 您可以在数据子集上训练多个模型，并将它们的预测视为样本以适应分布（再次为简单起见，它可以是单个高斯分布）。

从线性回归模型中的相同输入预测不同的值？

Predict different values from same inputs in a linear regressor model?

machine-learning

linear-regression