分类器神经网络的最后一层是否同时使用 sigmoid 和 softmax?

Does the last layer of a classifier neural network use both sigmoid and softmax?

分类器网络的隐藏层使用 sigmoid 或其他激活函数来引入非线性并对数据进行归一化,但最后一层是否使用 sigmoid 结合 softmax?

我觉得这无关紧要,网络会以任何一种方式进行训练——但是否应该单独使用 softmax 层?还是应该先应用 sigmoid 函数?

一般来说,在 softmax 输出层之前额外的 sigmoid 激活是没有意义的。由于 sigmoid 函数是 a partial case of softmax,它只会连续两次将值压缩到 [0, 1] 区间,这将给出几乎均匀的输出分布。当然也可以通过这个传播,但是效率会低很多。

顺便说一下,如果你选择不使用 ReLu,tanh 肯定比 sigmoid a better activation function