GRU的图表和方程之间的差异?
Discrepancy between diagram and equations of GRU?
在看Colah的博客时,
在图中我们可以清楚地看到 zt 将要
~ht 而不是 rt
但方程式却另有说法。这不应该是 zt*ht-1 而不是 rt*h t-1。
如有不妥请指正
我看到这有点过时了,但是,如果您仍然没有弄清楚并关心它,或者对于任何其他会在这里结束的人来说,答案是数字和方程式是一致的。请注意,图中的运算符 (x)(其中带有 X 的粉红色圆圈)是 Hadamard 乘积,它是两个相同大小的张量之间的逐元素乘法。在方程式中,这个算子用*
表示(通常用一个圆圈和圆心的一个点表示)。 ~h_t
是 tanh 运算符的输出。 tanh 运算符接收时间 t
、x_t
的输入和 r_t
和 h_{t-1}
之间的 Hadamard 乘积结果的线性组合。请注意,r_t
应该已经通过将 x_t
和 h_{t-1}
的线性组合通过 sigmoid 进行了更新。我希望重置是清楚的。
在看Colah的博客时, 在图中我们可以清楚地看到 zt 将要 ~ht 而不是 rt 但方程式却另有说法。这不应该是 zt*ht-1 而不是 rt*h t-1。 如有不妥请指正
我看到这有点过时了,但是,如果您仍然没有弄清楚并关心它,或者对于任何其他会在这里结束的人来说,答案是数字和方程式是一致的。请注意,图中的运算符 (x)(其中带有 X 的粉红色圆圈)是 Hadamard 乘积,它是两个相同大小的张量之间的逐元素乘法。在方程式中,这个算子用*
表示(通常用一个圆圈和圆心的一个点表示)。 ~h_t
是 tanh 运算符的输出。 tanh 运算符接收时间 t
、x_t
的输入和 r_t
和 h_{t-1}
之间的 Hadamard 乘积结果的线性组合。请注意,r_t
应该已经通过将 x_t
和 h_{t-1}
的线性组合通过 sigmoid 进行了更新。我希望重置是清楚的。