为什么门控激活函数(在 Wavenet 中使用)比 ReLU 效果更好?

Why does the gated activation function (used in Wavenet) work better than a ReLU?

我最近一直在阅读 Wavenet 和 PixelCNN 的论文,在这两篇论文中,他们都提到使用门控激活函数比 ReLU 效果更好。但在这两种情况下,他们都没有解释为什么会这样。

我已经在其他平台上询问过(比如r/machinelearning),但到目前为止我还没有得到任何回复。可能是他们只是(偶然)尝试了这种替代品,结果产生了良好的结果?

函数供参考: y = tanh(Wk,f ∗ x) 。 σ(Wk,g ∗ x)

卷积的 sigmoid 和 tanh 之间的逐元素乘法。

我进行了一些挖掘,并与一位朋友进行了更多交谈,他向我指出了 Dauphin 等人的一篇论文。阿尔。关于“门控卷积网络的语言建模”。他在论文的第 3 部分对此主题提供了很好的解释:

LSTMs enable long-term memory via a separate cell controlled by input and forget gates. This allows information to flow unimpeded through potentially many timesteps. Without these gates, information could easily vanish through the transformations of each timestep.

In contrast, convolutional networks do not suffer from the same kind of vanishing gradient and we find experimentally that they do not require forget gates. Therefore, we consider models possessing solely output gates, which allow the network to control what information should be propagated through the hierarchy of layers.

换句话说,这意味着他们采用了门的概念并将它们应用于顺序卷积层,以控制让哪种类型的信息通过,显然这比使用 ReLU 效果更好。

编辑:但是为什么效果更好,我仍然不知道,如果有人能给我一个更直观的答案,我将不胜感激,我环顾四周更多,显然我们的判断仍然基于反复试验。