为什么在 Tensorflow 中训练 RNN 时评估 self._initial_state

Why evaluate self._initial_state when training RNN in Tensorflow

在 RNN 教程中 ptd_word_lm.py。使用 run_epoch 训练 RNN 时,为什么需要评估 self._initial_state?

def run_epoch(session, m, data, eval_op, verbose=False):
  """Runs the model on the given data."""
  epoch_size = ((len(data) // m.batch_size) - 1) // m.num_steps
  start_time = time.time()
  costs = 0.0
  iters = 0
  state = m.initial_state.eval()
  for step, (x, y) in enumerate(reader.ptb_iterator(data, m.batch_size,
                                                    m.num_steps)):
    cost, state, _ = session.run([m.cost, m.final_state, eval_op],
                                 {m.input_data: x,
                                  m.targets: y,
                                  m.initial_state: state})
    costs += cost
    iters += m.num_steps

    if verbose and step % (epoch_size // 10) == 10:
      print("%.3f perplexity: %.3f speed: %.0f wps" %
            (step * 1.0 / epoch_size, np.exp(costs / iters),
             iters * m.batch_size / (time.time() - start_time)))

  return np.exp(costs / iters)

初始状态定义如下,在训练期间永远不会改变。

self._initial_state = cell.zero_state(batch_size, tf.float32)

在 PTB 示例中,句子被连接并分成批次(大小为 batch_size x num_steps)。在每批之后,RNN 的最后一个状态作为下一批的初始状态传递。这有效地允许您训练 RNN,就好像它是整个 PTB 语料库上的一个非常长的链(这解释了为什么 model.final_state 被评估以及为什么状态被传递到 m.initial_state 在 feed_dict).所以你看到 initial_state 实际 确实 在每一步都发生变化。

在纪元的最开始,我们没有先前的状态作为 initial_state 传递,因此使用全零,由 state = m.initial_state.eval() 表示。如果您评估了另一个名为 m.zero_state 的 属性 以获得此初始状态,则可能不会那么混乱。例如,您也可以使用适当大小的 numpy 零数组,这也可以正常工作。 eval 只是一种获取适当大小的张量或零的便捷方法。

希望这是有道理的!