Tensorflow RNN 输入大小

Question

我正在尝试使用 tensorflow 创建循环神经网络。我的代码是这样的：

import tensorflow as tf

rnn_cell = tf.nn.rnn_cell.GRUCell(3)

inputs = [tf.constant([[0, 1]], dtype=tf.float32), tf.constant([[2, 3]], dtype=tf.float32)]

outputs, end = tf.nn.rnn(rnn_cell, inputs, dtype=tf.float32)

现在，一切正常。但是，我对实际发生的事情感到很困惑。输出维度始终是批量大小 x rnn 单元隐藏状态的大小 - 它们如何完全独立于输入大小？

如果我的理解是正确的，输入在每一步都连接到 rnn 的隐藏状态，然后乘以权重矩阵（以及其他操作）。这意味着权重矩阵的维度需要取决于输入大小，这是不可能的，因为 rnn_cell 甚至在输入声明之前就已经创建了！

Answer 1

在看到关于 tensorflow 的 GRU 实现的问题后，我意识到发生了什么。与我的直觉相反，GRUCell 构造函数根本不创建任何权重或偏差变量。相反，它创建自己的变量范围，然后在实际调用时按需实例化变量。 Tensorflow 的变量作用域机制确保变量只创建一次，并在后续调用 GRU 时共享。

我不确定他们为什么决定采用这种相当混乱的实施方式，据我所知，这种实施方式没有记录在案。对我来说，使用 python 的对象级变量范围将 tensorflow 变量封装在 GRUCell 本身中似乎更合适，而不是依赖于额外的隐式范围机制。

Tensorflow RNN 输入大小

Tensorflow RNN input size

tensorflow

recurrent-neural-network

gated-recurrent-unit