具有 2 个单元和 softmax 的输出层是否适合使用 LSTM 进行二元分类?

Is an output layer with 2 units and softmax ideal for binary classification using LSTM?

我正在使用 LSTM 进行二元分类,最初尝试了一个在输出(密集)层中有 1 个单元的模型,并使用 sigmoid 作为激活函数。 然而,它表现不佳,我看到一些笔记本在输出层(紧接 LSTM 之后的层)中使用 2 个单元,并将 softmax 作为激活函数。使用 2 个输出层并使用 softmax 而不是单个单元和 sigmoid(为了二进制分类的目的)有什么好处吗?我使用 binary_crossentropy 作为损失函数

Softmax 应该比 sigmoid 好,因为 sigmoid 的导数斜率几乎接近于一个(梯度消失问题),这使得分类变得困难。这可能是 softmax 表现优于 sigmoid

的原因