Tensorflow 与 Keras 中的 RNN,折旧 tf.nn.dynamic_rnn()

RNN in Tensorflow vs Keras, depreciation of tf.nn.dynamic_rnn()

我的问题是:tf.nn.dynamic_rnnkeras.layers.RNN(cell) 真的如文档中所述相同吗?

我正计划构建一个 RNN,但是,tf.nn.dynamic_rnn 似乎不适合 Keras。

特别指出:

Warning: THIS FUNCTION IS DEPRECATED. It will be removed in a future version. Instructions for updating: Please use keras.layers.RNN(cell), which is equivalent to this API

但在可变序列长度的情况下,我看不出这些 API 是如何等效的!

在原始 TF 中,我们可以指定形状为 (batch_size, seq_lengths) 的张量。这样,如果我们的序列是 [0, 1, 2, 3, 4] 并且 batch 中最长的序列大小为 10,我们可以用 0 和 [0, 1, 2, 3, 4, 0, 0, 0, 0, 0] 填充它,我们可以说 seq_length=5 来处理 [0, 1, 2, 3, 4].

然而,在 Keras 中,这不是它的工作原理!我们可以做的是在前面的层中指定 mask_zero=True,例如嵌入层。这也将掩盖第一个零!

我可以通过将 1 添加到整个向量来绕过它,但是那是我在使用 tft.compute_vocabulary() 处理后需要做的额外预处理,它将词汇单词映射到 0 索引向量。

不,但它们(或可以使它们)也没有太大不同。

TL;DR

tf.nn.dynamic_rnn 替换序列以 0 结束后的元素。据我所知,这不能用 tf.keras.layers.* 复制,但你可以用 RNN(Masking(...) 方法得到类似的行为:它只是停止计算并向前传递最后的输出和状态。您将获得与从 tf.nn.dynamic_rnn.

获得的相同(非填充)输出

实验

这是一个最小的工作示例,展示了 tf.nn.dynamic_rnn and tf.keras.layers.GRU with and without the use of tf.keras.layers.Masking 层之间的差异。

import numpy as np
import tensorflow as tf

test_input = np.array([
    [1, 2, 1, 0, 0],
    [0, 1, 2, 1, 0]
], dtype=int)
seq_length = tf.constant(np.array([3, 4], dtype=int))

emb_weights = (np.ones(shape=(3, 2)) * np.transpose([[0.37, 1, 2]])).astype(np.float32)
emb = tf.keras.layers.Embedding(
    *emb_weights.shape,
    weights=[emb_weights],
    trainable=False
)
mask = tf.keras.layers.Masking(mask_value=0.37)
rnn = tf.keras.layers.GRU(
    1,
    return_sequences=True,
    activation=None,
    recurrent_activation=None,
    kernel_initializer='ones',
    recurrent_initializer='zeros',
    use_bias=True,
    bias_initializer='ones'
)


def old_rnn(inputs):
    rnn_outputs, rnn_states = tf.nn.dynamic_rnn(
        rnn.cell,
        inputs,
        dtype=tf.float32,
        sequence_length=seq_length
    )
    return rnn_outputs


x = tf.keras.layers.Input(shape=test_input.shape[1:])
m0 = tf.keras.Model(inputs=x, outputs=emb(x))
m1 = tf.keras.Model(inputs=x, outputs=rnn(emb(x)))
m2 = tf.keras.Model(inputs=x, outputs=rnn(mask(emb(x))))

print(m0.predict(test_input).squeeze())
print(m1.predict(test_input).squeeze())
print(m2.predict(test_input).squeeze())

sess = tf.keras.backend.get_session()
print(sess.run(old_rnn(mask(emb(x))), feed_dict={x: test_input}).squeeze())

m0 的输出显示应用嵌入层的结果。 请注意,根本没有零条目:

[[[1.   1.  ]    [[0.37 0.37]
  [2.   2.  ]     [1.   1.  ]
  [1.   1.  ]     [2.   2.  ]
  [0.37 0.37]     [1.   1.  ]
  [0.37 0.37]]    [0.37 0.37]]]

下面是 m1m2old_rnn 架构的实际输出:

m1: [[  -6.  -50. -156. -272.7276 -475.83362]
     [  -1.2876 -9.862801 -69.314 -213.94202 -373.54672 ]]
m2: [[  -6.  -50. -156. -156. -156.]
     [   0.   -6.  -50. -156. -156.]]
old [[  -6.  -50. -156.    0.    0.]
     [   0.   -6.  -50. -156.    0.]]

总结

  • 旧的 tf.nn.dynamic_rnn 用于用零屏蔽填充元素。
  • 新的 RNN 层 没有掩码 运行 在填充元素上,就好像它们是数据一样。
  • 新的 rnn(mask(...)) 方法只是简单地停止计算并向前传递最后的输出和状态。请注意,我为此方法获得的(非填充)输出与 tf.nn.dynamic_rnn.
  • 的输出完全相同

无论如何,我无法涵盖所有​​可能的边缘情况,但我希望您可以使用此脚本进一步解决问题。