如何在 Keras 中正确设置 RNN 以进行序列到序列建模？

Question

虽然我对机器学习并不陌生，但我对神经网络还是比较陌生，更具体地说是如何实现它们（在 Keras/Python 中）。前馈和卷积架构相当简单，但我在使用 RNN 时遇到了麻烦。

我的 X 数据由可变长度序列组成，该序列中的每个数据点都有 26 个特征。我的 y 数据，虽然长度可变，但每对 X 和 y 的长度相同，例如：

X_train[0].shape: (226,26)
y_train[0].shape: (226,)
X_train[1].shape: (314,26)
y_train[1].shape: (314,)
X_train[2].shape: (189,26)
y_train[2].shape: (189,)

而我的 objective 是 class 将序列中的每个项目归入 39 个类别之一。

到目前为止，我可以通过阅读示例代码收集到的信息是，我们执行如下操作：

encoder_inputs = Input(shape=(None, 26))
encoder = GRU(256, return_state=True)
encoder_outputs, state_h = encoder(encoder_inputs)
decoder_inputs = Input(shape=(None, 39))
decoder_gru= GRU(256, return_sequences=True)
decoder_outputs, _ = decoder_gru(decoder_inputs, initial_state=state_h)
decoder_dense = Dense(39, activation='softmax')
decoder_outputs = decoder_dense(decoder_outputs)

model = Model([encoder_inputs, decoder_inputs], decoder_outputs)
model.compile(loss=keras.losses.categorical_crossentropy,
                  optimizer=keras.optimizers.Adadelta(),
                  metrics=['accuracy'])

这对我来说很有意义，因为每个序列都有不同的长度。因此，对于遍历所有序列的 for 循环，我们在第一个 GRU 层的输入形状中使用 None 因为我们不确定序列长度是多少，然后 return 隐藏状态 state_h 该编码器。使用第二个 GRU 层 returning 序列，初始状态是来自编码器的 return 状态，然后我们将输出传递给最终的 softmax 激活层。

显然这里有问题，因为我得到：

decoder_outputs, _ = decoder_gru(decoder_inputs, initial_state=state_h)
File "/usr/local/lib/python3.6/dist- 
packages/tensorflow/python/framework/ops.py", line 458, in __iter__
"Tensor objects are only iterable when eager execution is "
TypeError: Tensor objects are only iterable when eager execution is 
enabled. To iterate over this tensor use tf.map_fn.

This link 指出了一个建议的解决方案，但我不明白为什么要将编码器状态添加到网络中的层数的元组中。

我真的在寻求帮助能够成功编写这个 RNN 来完成这个任务，同时也在寻求帮助。我对 RNN 很感兴趣，想更深入地了解它们，以便将它们应用到其他问题上。

作为额外说明，每个序列的形状都是 (sequence_length, 26)，但我将 X 的维度扩展为 (1, sequence_length, 26)，[=15= 的维度扩展为 (1, sequence_length) ]，然后将它们传递到一个 for 循环中进行拟合，decoder_target_data 比当前输入提前一步：

for idx in range(X_train.shape[0]):
    X_train_s = np.expand_dims(X_train[idx], axis=0)
    y_train_s = np.expand_dims(y_train[idx], axis=0)
    y_train_s1 = np.expand_dims(y_train[idx+1], axis=0)

    encoder_input_data = X_train_s
    decoder_input_data = y_train_s
    decoder_target_data = y_train_s1
    model.fit([encoder_input_data, decoder_input_data], decoder_target_data,
          epochs=50,
          validation_split=0.2)

对于我编写的其他网络（前馈和 CNN），我通过在 Keras 的 Sequential class 之上添加层来指定模型。由于 RNN 固有的复杂性，我看到像上面那样使用 Keras 的输入 class 和检索隐藏状态（以及 LSTM 的单元状态）等的一般格式......是合乎逻辑的，但我也看到它们是从使用 Keras 的顺序 Class。尽管这些是多对一类型的任务，但我也很想知道您将如何以这种方式编写它。

Answer 1

问题是 decoder_gru 层没有 return 它的状态，因此你不应该使用 _ 作为状态的 return 值（即只是删除 , _):

decoder_outputs = decoder_gru(decoder_inputs, initial_state=state_h)

由于输入和输出的长度相同，并且输入和输出的元素之间存在一对一的映射关系，您也可以这样构建模型：

inputs = Input(shape=(None, 26))
gru = GRU(64, return_sequences=True)(inputs)
outputs = Dense(39, activation='softmax')(gru)

model = Model(inputs, outputs)

现在您可以通过将多个 GRU 层堆叠在一起来使该模型更复杂（即增加其容量）：

inputs = Input(shape=(None, 26))
gru = GRU(256, return_sequences=True)(inputs)
gru = GRU(128, return_sequences=True)(gru)
gru = GRU(64, return_sequences=True)(gru)
outputs = Dense(39, activation='softmax')(gru)

model = Model(inputs, outputs)

此外，您可以使用具有更多表示能力的 LSTM 层来代替 GRU 层（当然这可能是以增加计算成本为代价的）。并且不要忘记，当您增加模型的容量时，您也会增加过度拟合的机会。所以你必须牢记这一点并考虑防止过度拟合的解决方案（例如添加正则化）。

旁注： 如果您有可用的 GPU，则可以使用 CuDNNGRU (or CuDNNLSTM) 层代替，该层已针对 GPU 进行了优化，因此运行速度比至 GRU.

如何在 Keras 中正确设置 RNN 以进行序列到序列建模？

How to properly setup an RNN in Keras for sequence to sequence modelling?

python

machine-learning

deep-learning

keras

rnn