统计模型的预测值和拟合值中是否包含噪声？

Question

我正在对我的面板数据（数据框）执行具有特定国家/地区影响 (LSDV) 的 OLS 回归。这是我的结果：

============================== OLSR With Dummies ==============================
                            OLS Regression Results                            
==============================================================================
Dep. Variable:                    ELC   R-squared:                       0.969
Model:                            OLS   Adj. R-squared:                  0.968
Method:                 Least Squares   F-statistic:                     1185.
Date:                Fri, 11 Mar 2022   Prob (F-statistic):               0.00
Time:                        10:13:02   Log-Likelihood:                -5120.2
No. Observations:                5237   AIC:                         1.051e+04
Df Residuals:                    5101   BIC:                         1.140e+04
Df Model:                         135                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      2.8980      0.130     22.355      0.000       2.644       3.152
IWW            0.6373      0.011     55.687      0.000       0.615       0.660
GDPC           0.7915      0.016     50.249      0.000       0.761       0.822
CDD            0.0333      0.007      4.750      0.000       0.020       0.047
HDD            0.1124      0.008     14.793      0.000       0.097       0.127
TIME           0.3588      0.013     28.110      0.000       0.334       0.384
AGO           -4.1382      0.147    -28.187      0.000      -4.426      -3.850
ALB           -7.4068      0.166    -44.670      0.000      -7.732      -7.082

我正在通过 df_results.fittedvalues 或 df_results.predict(exog) 获取拟合值。为确保我的计算正确，我想比较手动计算的 y 与 y_fittedvalue，例如 ALB：y = 0.637*IWW + 0.7915*GDPC + 0.0333*CDD + 0.1124*HDD + 0.3588*TIME + (2.8980-7.4068)，但略有不同（2~3%）（y=5.68 and y_fittedvalue=5.79）。我猜它来自噪音（错误），但我找不到任何来源和证据。如果有人能帮助解释是什么导致了这种差异，我将不胜感激。如果它来自噪音，我如何获得噪音值？

Answer 1

对于您的手动计算，您使用的是四舍五入的系数。要准确地做到这一点，您应该这样做：

df_results.params * exog

统计模型的预测值和拟合值中是否包含噪声？

Does it noise included in predicted and fitted value in statsmodel?

python

linear-regression

statsmodels