sigmoid 和 tanh 的数据集值分布

Dataset values distribution for sigmoid and tanh

正如许多论文指出的那样,为了获得更好的 NN 学习曲线,最好以值匹配高斯曲线的方式对数据集进行归一化。

这是否仅在我们使用 sigmoid 函数作为压缩函数时适用? 如果不是什么偏差最适合 tanh 压缩函数?

Does this apply only if we use sigmoid function as squashing function?

不,激活分布显然取决于激活函数,这就是为什么基于 sigmoid 和 relu 的神经网络的初始化技术不同的原因。查看 Xavier 和 He 初始化之间的区别 in this question。输入分布也是如此。

If not what diviation is best for tanh squashing function?

但是 tanh 是缩放和移动的 sigmoid

tanh(x) = 2⋅sigmoid(2x) - 1

所以如果激活对于 sigmoid 激活是正态分布的,它们对于 tanh 仍然是正态分布的。仅具有缩放标准偏差和移动平均值。所以相同的输入分布对 tanh 有效。如果您希望获得相同的高斯方差,您可以按 sqrt(2) 缩放输入,但实际上并没有那么重要。