如何使用 Keras 将 3D 矩阵减少为 2D 矩阵？

Question

我构建了一个 Keras ConvLSTM 神经网络，我想根据一系列 10 次步骤提前预测一帧：

from keras.models import Sequential
from keras.layers.convolutional import Conv3D
from keras.layers.convolutional_recurrent import ConvLSTM2D
from keras.layers.normalization import BatchNormalization
import numpy as np
import pylab as plt
from keras import layers

# We create a layer which take as input movies of shape
# (n_frames, width, height, channels) and returns a movie
# of identical shape.

model = Sequential()
model.add(ConvLSTM2D(filters=40, kernel_size=(3, 3),
                   input_shape=(None, 64, 64, 1),
                   padding='same', return_sequences=True))
model.add(BatchNormalization())

model.add(ConvLSTM2D(filters=40, kernel_size=(3, 3),
                   padding='same', return_sequences=True))
model.add(BatchNormalization())

model.add(ConvLSTM2D(filters=40, kernel_size=(3, 3),
                   padding='same', return_sequences=True))
model.add(BatchNormalization())

model.add(ConvLSTM2D(filters=40, kernel_size=(3, 3),
                   padding='same', return_sequences=True))
model.add(BatchNormalization())

model.add(Conv3D(filters=1, kernel_size=(3, 3, 3),
               activation='sigmoid',
               padding='same', data_format='channels_last'))
model.compile(loss='binary_crossentropy', optimizer='adadelta')

培训：

data_train_x = data_4[0:20, 0:10, :, :, :]
data_train_y = data_4[0:20, 10:11, :, :, :]

model.fit(data_train_x, data_train_y, batch_size=10, epochs=1, 
validation_split=0.05)

我测试模型：

test_x = np.reshape(data_test_x[2,:,:,:,:], [1,10,64,64,1])
next_frame = model.predict(test_x,batch_size=1, verbose=1, steps=None)

但问题是 'next_frame' 形状是：(1, 10, 64, 64, 1) 但我希望它的形状是 (1, 1, 64, 64, 1)

这是 'model.summary()' 的结果：

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
conv_lst_m2d_1 (ConvLSTM2D)  (None, None, 64, 64, 40)  59200     
_________________________________________________________________
batch_normalization_1 (Batch (None, None, 64, 64, 40)  160       
_________________________________________________________________
conv_lst_m2d_2 (ConvLSTM2D)  (None, None, 64, 64, 40)  115360    
_________________________________________________________________
batch_normalization_2 (Batch (None, None, 64, 64, 40)  160       
_________________________________________________________________
conv_lst_m2d_3 (ConvLSTM2D)  (None, None, 64, 64, 40)  115360    
_________________________________________________________________
batch_normalization_3 (Batch (None, None, 64, 64, 40)  160       
_________________________________________________________________
conv_lst_m2d_4 (ConvLSTM2D)  (None, None, 64, 64, 40)  115360    
_________________________________________________________________
batch_normalization_4 (Batch (None, None, 64, 64, 40)  160       
_________________________________________________________________
conv3d_1 (Conv3D)            (None, None, 64, 64, 1)   1081      
=================================================================
Total params: 407,001
Trainable params: 406,681
Non-trainable params: 320

所以我不知道要添加什么层所以我将输出减少到 1 帧而不是 10 帧？

Answer 1

这是基于最后一层中的 3D 卷积的预期结果。例如，如果您在 3 维张量的 Conv2D 中有 1 个过滤器，填充 = 'same'，这意味着它将产生相同高度的 2D 输出和宽度（例如，过滤器隐式地也沿深度轴捕获）。

跨4维张量的3D也是如此，它隐式地沿通道维度深度轴捕获，从而产生与输入相同（序列索引、高度、宽度）的3D张量.

听起来你想要做的是在你的 Conv3D 层之后添加某种池化步骤，这样它就可以在序列维度上变平，比如 AveragePooling3D 池化元组为 (10, 1, 1) 对第一个非批处理维度进行平均（或根据您的特定网络需求进行修改）。

或者，假设您希望通过仅采用最终序列元素（例如，而不是对序列进行平均或最大池化）来沿序列维度具体 "pool"。然后，您可以使最终的 ConvLSTM2D 层具有 return_sequences=False，然后在最后一步进行 2D 卷积，但这意味着您的最终卷积不会受益于跨一系列预测帧的聚合。这是否是个好主意，可能因应用程序而异。

为了确认第一种方法，我补充说：

model.add(layers.AveragePooling3D(pool_size=(10, 1, 1), padding='same'))

就在Conv3D层之后，然后制作玩具数据：

x = np.random.rand(1, 10, 64, 64, 1)

然后：

In [22]: z = model.predict(x)

In [23]: z.shape
Out[23]: (1, 1, 64, 64, 1)

您需要确保第一个非批次维度中的池化大小设置为最大可能序列长度，以确保您始终在最终输出形状中获得 (1, 1, ...)。

Answer 2

作为 ely 的 Conv2D 和 AveragePooling3D 解决方案的替代方案，您可以将最后一个 ConvLSTM2D 层的 return_sequence 参数设置为 True 但更改填充Conv3D 层的 valid 然后将其 kernel_size 参数设置为 (n_observations - k_steps_to_predict + 1 , 1 , 1)。这样，您就可以更改输出的 time_dimension(#frames)。假设观察的数量是固定的，您可以将其应用于任何直接的 k 步提前预测。

如何使用 Keras 将 3D 矩阵减少为 2D 矩阵？

How to decrease a 3D matrix to a 2D matrix using Keras?

machine-learning

convolution

computer-vision

conv-neural-network

keras