非线性神经网络回归 - 未正确估计二次函数

non-linear neural network regression - quadratic function is not being estimated correctly

我主要使用 ANN 进行分类,直到最近才开始尝试使用它们对连续变量建模。作为练习,我生成了一组简单的 (x, y) 对,其中 y = x^2 并尝试训练 ANN 来学习这个二次函数。

ANN模型:

这个ANN有1个输入节点(即x),2个隐藏层,每层有2个节点,1个输出节点。所有四个隐藏节点都使用非线性 tanh 激活函数,输出节点没有激活函数(因为它是回归)。

数据:

对于训练集,我在 (-20, 20) 之间为 x 随机生成 100 个数字并计算出 y=x^2。对于测试集,我在 (-30, 30) 之间为 x 随机生成了 100 个数字,还计算了 y=x^2。然后我变换了所有 x,使它们以 0 为中心,它们的最小值和最大值大约在 -1.5 和 1.5 左右。我也对所有 y 进行了类似的变换,但将它们的最小值和最大值设为 -0.9 和 0.9。这样,所有数据都落在 tanh 激活函数的中间范围内,而不是在极端情况下。

问题:

在 Keras 中训练 ANN 后,我发现仅学习了多项式函数的右半部分,而左半部分完全平坦。有谁知道为什么会发生这种情况?我尝试使用不同的缩放选项以及隐藏层规范,但在左侧没有运气。

谢谢!

附件是我用于所有内容的代码,图像显示了缩放训练 x 与预测 y 的关系图。可以看到,只恢复了一半的抛物线。

import numpy as np, pandas as pd
from keras.models import Sequential
from keras.layers import Dense
from keras.wrappers.scikit_learn import KerasRegressor
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
import matplotlib.pyplot as plt

seed = 10
n = 100
X_train = np.random.uniform(-20, 20, n)
Y_train = X_train ** 2
X_test = np.random.uniform(-30, 30, n)
Y_test = X_test ** 2

#### Scale the data

x_cap = max(abs(np.array(list(X_train) + list(X_test))))
y_cap = max(abs(np.array(list(Y_train) + list(Y_test))))
x_mean = np.mean(np.array(list(X_train) + list(X_test)))
y_mean = np.mean(np.array(list(Y_train) + list(Y_test)))

X_train2 = (X_train-x_mean) / x_cap
X_test2 = (X_test-x_mean) / x_cap
Y_train2 = (Y_train-y_mean) / y_cap
Y_test2 = (Y_test-y_mean) / y_cap

X_train2 = X_train2 * (1.5 / max(X_train2))
Y_train2 = Y_train2 * (0.9 / max(Y_train2))

# define base model
def baseline_model1():
# create model
model1 = Sequential()
model1.add(Dense(2, input_dim=1, kernel_initializer='normal', activation='tanh'))
model1.add(Dense(2, input_dim=1, kernel_initializer='normal', activation='tanh'))
model1.add(Dense(1, kernel_initializer='normal'))
# Compile model
model1.compile(loss='mean_squared_error', optimizer='adam')
return model1

np.random.seed(seed)
estimator1 = KerasRegressor(build_fn=baseline_model1, epochs=100, batch_size=5, verbose=0)

estimator1.fit(X_train2, Y_train2)
prediction = estimator1.predict(X_train2)
plt.scatter(X_train2, prediction)

enter image description here

您的网络对初始参数非常敏感。以下内容会有所帮助:

  • 将您的 kernel_initializer 更改为 glorot_uniform。您的网络非常小,glorot_uniform 与 tanh 激活一致会更好地工作。 Glorot uniform 将鼓励您的权重最初处于更合理的范围内(因为它考虑了每一层的扇入和扇出)。

  • 训练您的模型更多轮数(即 1000)。

您还应该考虑为隐藏层增加更多宽度。我从 2 改为 5,非常合身。我还按照 rvinas

的建议使用了更多的纪元