预测/估计给定变量趋势所需的输入数据

Input data necessary for forecasting/ estimating trends for a given variable

这可能更像是一个理论问题,而不是与代码相关的问题。在我目前的工作中,我发现自己正在估算/预测(最后一项更具机会主义色彩)非洲某条河流的水位。

关键是我正在开发一个简单的多元回归模型,该模型需要超过 15 年的历史水位和降水量(来自不同位置)来生成水位估计值。

我不习惯使用机器学习或任何正确的名称。我更习惯于建模数据和生成拟合(当前数据可以用非对称高斯和S形函数结合低阶多项式完美定义。

重点是;一旦我有了多元回归模型,我的同事们建议我不要使用拟合数据进行估计,而是使用所有原始数据。由于他们无法向我解释其中的原因,我尝试使用拟合数据作为原始输入(在我的辩护中,所有拟合模型的中值具有非常低的偏差误差 == 漂亮的拟合)。但我不明白的是,为什么我应该只使用原始数据,这些数据是嘈杂的、不准确的,考虑到不直接相关的因素(回归有偏差?)。这样做有什么好处?

我在该领域缺乏理论知识,这让我对此感到疑惑。我应该始终使用所有原始数据来确定多元回归的变量,还是可以使用拟合值(即获得每个历史年份的不同拟合模型的中值)?

非常感谢!

这是我的 2 美分

我想你的同事这么说是因为模型学习原始数据和实际降雨量之间的相关性会更好。

在现场,您将从原始数据开始,因此能够直接从中进行预测非常有用。原始数据工作后你做的工作越多,每次你想要做出预测时你就必须做更多的工作。

但是,如果更简单的模型可行 perfectly defined with asymetric gaussians and sigmoids functions combined with low order polynomials,那么我建议这样做。只要你的 (y_pred - t_true) ** 2 很小