GRU 中的 W 和 U 表示什么?
What do W and U notate in a GRU?
我正在尝试弄清楚如何反向传播 GRU 循环网络,但我无法准确理解 GRU 架构。
下图显示了一个具有 3 个神经网络的 GRU 单元,接收串联的先前隐藏状态和输入向量作为其输入。
GRU example
然而,我引用的这张图片用于反向传播,显示输入被转发到每个门的 W 和 U,添加,然后应用它们适当的激活函数。
GRU Backpropagation
维基百科上显示的更新门方程式如下所示
zt = sigmoid((W(z)xt + U(z)ht-1))
谁能给我解释一下 W 和 U 代表什么?
编辑:
在我找到的大部分资料中,W 和 U 通常被称为 "weights",所以我最好的猜测是 W 和 U 代表它们自己的神经网络,但这与我找到的图像相矛盾之前。
如果有人可以举例说明 W 和 U 如何在简单的 GRU 中工作,那将会很有帮助。
图片来源:
https://cran.r-project.org/web/packages/rnn/vignettes/GRU_units.html
https://towardsdatascience.com/animated-rnn-lstm-and-gru-ef124d06cf45
W
和 U
是在训练期间学习其值的矩阵(a.k.a。神经网络权重)。矩阵 W
乘以向量 xt
并产生一个新向量。类似地,矩阵 U 乘以向量 ht-1
并产生一个新向量。将这两个新向量相加,然后将结果的每个分量传递给 sigmoid
函数。
我正在尝试弄清楚如何反向传播 GRU 循环网络,但我无法准确理解 GRU 架构。
下图显示了一个具有 3 个神经网络的 GRU 单元,接收串联的先前隐藏状态和输入向量作为其输入。
GRU example
然而,我引用的这张图片用于反向传播,显示输入被转发到每个门的 W 和 U,添加,然后应用它们适当的激活函数。
GRU Backpropagation
维基百科上显示的更新门方程式如下所示
zt = sigmoid((W(z)xt + U(z)ht-1))
谁能给我解释一下 W 和 U 代表什么?
编辑:
在我找到的大部分资料中,W 和 U 通常被称为 "weights",所以我最好的猜测是 W 和 U 代表它们自己的神经网络,但这与我找到的图像相矛盾之前。
如果有人可以举例说明 W 和 U 如何在简单的 GRU 中工作,那将会很有帮助。
图片来源: https://cran.r-project.org/web/packages/rnn/vignettes/GRU_units.html https://towardsdatascience.com/animated-rnn-lstm-and-gru-ef124d06cf45
W
和 U
是在训练期间学习其值的矩阵(a.k.a。神经网络权重)。矩阵 W
乘以向量 xt
并产生一个新向量。类似地,矩阵 U 乘以向量 ht-1
并产生一个新向量。将这两个新向量相加,然后将结果的每个分量传递给 sigmoid
函数。