为什么随机森林回归会预测完全相同的值?
Why does Random Forest Regression predict the exact same value?
我正在尝试使用 Scikit-Learn 的随机森林回归器根据实际 GDP 预测名义 GDP。
我从网站上读取数据并稍微清理一下,然后将我预测的未来三年实际 GDP 合成一个数据框。
我有以下代码:
from sklearn.ensemble import RandomForestRegressor
gdp = pd.read_html('https://www.thebalance.com/us-gdp-by-year-3305543')[0]
gdp.columns = gdp.iloc[0]
gdp = gdp[1:]
gdp['Year'] = gdp['Year'].astype(int)
gdp['Nominal GDP (trillions)'] = gdp['Nominal GDP (trillions)'].str.replace(',', '.').str.replace('$', '').astype(float)
gdp['Real GDP (trillions)'] = gdp['Real GDP (trillions)'].str.replace(',', '.').str.replace('$', '').astype(float)
X = pd.DataFrame(gdp['Real GDP (trillions)'].copy())
y = pd.DataFrame(gdp['Nominal GDP (trillions)'].copy())
X_pred = pd.DataFrame(data = [18.313, 18.960, 19.643], columns = ['Real GDP (trillions)'])
reg = RandomForestRegressor(n_estimators = 300)
reg.fit(X, y.values.ravel())
y_pred = reg.predict(X_pred)
它returns下面的预测:
1 | 2 | 3个
---|---|---
19.72172 | 21.05464667 | 21.05464667
为什么第二个和第三个预测完全一样?即使我将 X_pred 值更改为 [18.313, 18.960, 39.643]
之类的值,它也会发生
在你的训练数据中,只有一个值 > 18.960 :
X[X.values>18.960]
Real GDP (trillions)
91 19.092
因此,您最终得到的值极不可能拆分为 18.960 和 19.643,或者就此而言,拆分为 18.960 和 39.643。它不是可以插值的线性回归。
我们可以检查每棵树的阈值:
thres = np.unique([j for i in reg.estimators_ for j in i.tree_.threshold])
np.sort(thres)[-10:]
array([17.80000019, 17.9375 , 18.00199986, 18.05999947, 18.20950031,
18.26199913, 18.41149998, 18.41599941, 18.61799908, 18.88999939])
您的阈值的最大值无法拆分您尝试预测的 2 个值,因此它们将始终出现在相同的节点中,从而为您提供相同的预测。
我正在尝试使用 Scikit-Learn 的随机森林回归器根据实际 GDP 预测名义 GDP。
我从网站上读取数据并稍微清理一下,然后将我预测的未来三年实际 GDP 合成一个数据框。
我有以下代码:
from sklearn.ensemble import RandomForestRegressor
gdp = pd.read_html('https://www.thebalance.com/us-gdp-by-year-3305543')[0]
gdp.columns = gdp.iloc[0]
gdp = gdp[1:]
gdp['Year'] = gdp['Year'].astype(int)
gdp['Nominal GDP (trillions)'] = gdp['Nominal GDP (trillions)'].str.replace(',', '.').str.replace('$', '').astype(float)
gdp['Real GDP (trillions)'] = gdp['Real GDP (trillions)'].str.replace(',', '.').str.replace('$', '').astype(float)
X = pd.DataFrame(gdp['Real GDP (trillions)'].copy())
y = pd.DataFrame(gdp['Nominal GDP (trillions)'].copy())
X_pred = pd.DataFrame(data = [18.313, 18.960, 19.643], columns = ['Real GDP (trillions)'])
reg = RandomForestRegressor(n_estimators = 300)
reg.fit(X, y.values.ravel())
y_pred = reg.predict(X_pred)
它returns下面的预测: 1 | 2 | 3个 ---|---|--- 19.72172 | 21.05464667 | 21.05464667
为什么第二个和第三个预测完全一样?即使我将 X_pred 值更改为 [18.313, 18.960, 39.643]
在你的训练数据中,只有一个值 > 18.960 :
X[X.values>18.960]
Real GDP (trillions)
91 19.092
因此,您最终得到的值极不可能拆分为 18.960 和 19.643,或者就此而言,拆分为 18.960 和 39.643。它不是可以插值的线性回归。
我们可以检查每棵树的阈值:
thres = np.unique([j for i in reg.estimators_ for j in i.tree_.threshold])
np.sort(thres)[-10:]
array([17.80000019, 17.9375 , 18.00199986, 18.05999947, 18.20950031,
18.26199913, 18.41149998, 18.41599941, 18.61799908, 18.88999939])
您的阈值的最大值无法拆分您尝试预测的 2 个值,因此它们将始终出现在相同的节点中,从而为您提供相同的预测。