神经网络回归：缩放输出还是使用线性层？

Question

我目前正在尝试使用神经网络进行回归预测。

但是，我不知道处理这个问题的最佳方法是什么，因为我读到有 2 种不同的方法可以使用 NN 进行回归预测。

1) 一些 websites/articles 建议添加一个线性的最后一层。 http://deeplearning4j.org/linear-regression.html

我认为我的最后一层看起来像：

layer1 = tanh(layer0*weight1 + bias1)

layer2 = identity(layer1*weight2+bias2)

我还注意到，当我使用这个解决方案时，我通常会得到一个预测，它是批量预测的平均值。当我使用 tanh 或 sigmoid 作为倒数第二层时就是这种情况。

2) 其他一些 websites/articles 建议将输出缩放到 [-1,1] 或 [0,1] 范围，并使用 tanh 或 sigmoid 作为最后一层。

这两种解决方案可以接受吗？应该选择哪一个？

谢谢，保罗

Answer 1

我更喜欢第二种情况，在这种情况下，我们使用归一化和 sigmoid 函数作为输出激活，然后将归一化的输出值缩小到它们的实际值。这是因为，在第一种情况下，要输出较大的值（因为在大多数情况下实际值很大），从倒数第二层到输出层的权重映射必须很大。因此，为了更快的收敛，必须使学习率更大。但这也可能导致较早层的学习出现分歧，因为我们使用的是更大的学习率。因此，建议使用归一化的目标值，这样权重很小并且学习速度很快。因此简而言之，如果使用较大的学习率，第一种方法学习速度较慢或可能发散，另一方面，第二种方法使用起来相对安全且学习速度快。

神经网络回归：缩放输出还是使用线性层？

Neural Networks Regression : scaling the outputs or using a linear layer?

regression

neural-network

non-linear-regression