prelu权重解读

Interpretation of prelu weights

prelu 权重的解释是什么,如果一个层中的 prelu 权重接近 1,而在其他层中它们接近 0?

prelu 文献不多,任何帮助都会很有帮助!

PRelu 公式为this:

如你所见,如果 a 被学习到在 0 附近,那么 f(x) 几乎等于普通的 relu,负激活的梯度不会改变网络。简而言之,网络不会 "want" 向任何方向调整不活跃的神经元。实际上,这也意味着您可以通过在此层中使用 relu 来加快训练速度。这种非线性也很重要。

相反,当a接近1时,f(x)几乎x,即没有非线性。这意味着该层可能是冗余的,并且网络有足够的自由度来在没有它的情况下做出决策边界。