统计模型的预测值和拟合值中是否包含噪声?
Does it noise included in predicted and fitted value in statsmodel?
我正在对我的面板数据(数据框)执行具有特定国家/地区影响 (LSDV) 的 OLS 回归。这是我的结果:
============================== OLSR With Dummies ==============================
OLS Regression Results
==============================================================================
Dep. Variable: ELC R-squared: 0.969
Model: OLS Adj. R-squared: 0.968
Method: Least Squares F-statistic: 1185.
Date: Fri, 11 Mar 2022 Prob (F-statistic): 0.00
Time: 10:13:02 Log-Likelihood: -5120.2
No. Observations: 5237 AIC: 1.051e+04
Df Residuals: 5101 BIC: 1.140e+04
Df Model: 135
Covariance Type: nonrobust
==============================================================================
coef std err t P>|t| [0.025 0.975]
------------------------------------------------------------------------------
Intercept 2.8980 0.130 22.355 0.000 2.644 3.152
IWW 0.6373 0.011 55.687 0.000 0.615 0.660
GDPC 0.7915 0.016 50.249 0.000 0.761 0.822
CDD 0.0333 0.007 4.750 0.000 0.020 0.047
HDD 0.1124 0.008 14.793 0.000 0.097 0.127
TIME 0.3588 0.013 28.110 0.000 0.334 0.384
AGO -4.1382 0.147 -28.187 0.000 -4.426 -3.850
ALB -7.4068 0.166 -44.670 0.000 -7.732 -7.082
我正在通过 df_results.fittedvalues
或 df_results.predict(exog)
获取拟合值。
为确保我的计算正确,我想比较手动计算的 y 与 y_fittedvalue,例如 ALB:y = 0.637*IWW + 0.7915*GDPC + 0.0333*CDD + 0.1124*HDD + 0.3588*TIME + (2.8980-7.4068)
,但略有不同(2~3%)(y=5.68 and y_fittedvalue=5.79)。我猜它来自噪音(错误),但我找不到任何来源和证据。如果有人能帮助解释是什么导致了这种差异,我将不胜感激。如果它来自噪音,我如何获得噪音值?
对于您的手动计算,您使用的是四舍五入的系数。要准确地做到这一点,您应该这样做:
df_results.params * exog
我正在对我的面板数据(数据框)执行具有特定国家/地区影响 (LSDV) 的 OLS 回归。这是我的结果:
============================== OLSR With Dummies ==============================
OLS Regression Results
==============================================================================
Dep. Variable: ELC R-squared: 0.969
Model: OLS Adj. R-squared: 0.968
Method: Least Squares F-statistic: 1185.
Date: Fri, 11 Mar 2022 Prob (F-statistic): 0.00
Time: 10:13:02 Log-Likelihood: -5120.2
No. Observations: 5237 AIC: 1.051e+04
Df Residuals: 5101 BIC: 1.140e+04
Df Model: 135
Covariance Type: nonrobust
==============================================================================
coef std err t P>|t| [0.025 0.975]
------------------------------------------------------------------------------
Intercept 2.8980 0.130 22.355 0.000 2.644 3.152
IWW 0.6373 0.011 55.687 0.000 0.615 0.660
GDPC 0.7915 0.016 50.249 0.000 0.761 0.822
CDD 0.0333 0.007 4.750 0.000 0.020 0.047
HDD 0.1124 0.008 14.793 0.000 0.097 0.127
TIME 0.3588 0.013 28.110 0.000 0.334 0.384
AGO -4.1382 0.147 -28.187 0.000 -4.426 -3.850
ALB -7.4068 0.166 -44.670 0.000 -7.732 -7.082
我正在通过 df_results.fittedvalues
或 df_results.predict(exog)
获取拟合值。
为确保我的计算正确,我想比较手动计算的 y 与 y_fittedvalue,例如 ALB:y = 0.637*IWW + 0.7915*GDPC + 0.0333*CDD + 0.1124*HDD + 0.3588*TIME + (2.8980-7.4068)
,但略有不同(2~3%)(y=5.68 and y_fittedvalue=5.79)。我猜它来自噪音(错误),但我找不到任何来源和证据。如果有人能帮助解释是什么导致了这种差异,我将不胜感激。如果它来自噪音,我如何获得噪音值?
对于您的手动计算,您使用的是四舍五入的系数。要准确地做到这一点,您应该这样做:
df_results.params * exog