使用 Keras 注意力在 sequence2sequence 模型中连接层形状错误
Concatenate layer shape error in sequence2sequence model with Keras attention
我正在尝试在 Colab 中使用 Keras 实现一个简单的单词级序列到序列模型。我正在使用 Keras 注意力层。这是模型的定义:
embedding_size=200
UNITS=128
encoder_inputs = Input(shape=(None,), name="encoder_inputs")
encoder_embs=Embedding(num_encoder_tokens, embedding_size, name="encoder_embs")(encoder_inputs)
#encoder lstm
encoder = LSTM(UNITS, return_state=True, name="encoder_LSTM") #(encoder_embs)
encoder_outputs, state_h, state_c = encoder(encoder_embs)
encoder_states = [state_h, state_c]
decoder_inputs = Input(shape=(None,), name="decoder_inputs")
decoder_embs = Embedding(num_decoder_tokens, embedding_size, name="decoder_embs")(decoder_inputs)
#decoder lstm
decoder_lstm = LSTM(UNITS, return_sequences=True, return_state=True, name="decoder_LSTM")
decoder_outputs, _, _ = decoder_lstm(decoder_embs, initial_state=encoder_states)
attention=Attention(name="attention_layer")
attention_out=attention([encoder_outputs, decoder_outputs])
decoder_concatenate=Concatenate(axis=-1, name="concat_layer")([decoder_outputs, attention_out])
decoder_outputs = TimeDistributed(Dense(units=num_decoder_tokens,
activation='softmax', name="decoder_denseoutput"))(decoder_concatenate)
model=Model([encoder_inputs, decoder_inputs], decoder_outputs, name="s2s_model")
model.compile(optimizer='RMSprop', loss='categorical_crossentropy', metrics=['accuracy'])
model.summary()
模型编译正常,没有任何问题。编码器和解码器的输入输出形状为:
Encoder training input shape: (4000, 21)
Decoder training input shape: (4000, 12)
Decoder training target shape: (4000, 12, 3106)
--
Encoder test input shape: (385, 21)
这是 model.fit 代码:
model.fit([encoder_training_input, decoder_training_input], decoder_training_target,
epochs=100,
batch_size=32,
validation_split=0.2,)
当我 运行 拟合阶段时,我从连接层得到这个错误:
ValueError: Dimension 1 in both shapes must be equal, but are 12 and 32.
Shapes are [32,12] and [32,32]. for '{{node s2s_model/concat_layer/concat}} = ConcatV2[N=2, T=DT_FLOAT, Tidx=DT_INT32](s2s_model/decoder_LSTM/PartitionedCall:1,
s2s_model/attention_layer/MatMul_1, s2s_model/concat_layer/concat/axis)' with input shapes: [32,12,128], [32,32,128], [] and with computed input tensors: input[2] = <2>.
因此,前32个是batch_size
,128个是decoder_outputs
和attention_out
的输出形状,12是解码器输入的令牌数。我不明白如何解决这个错误,我无法更改我认为的输入令牌的数量,对我有什么建议吗?
将连接层中的axis=-1替换为axis=1。 this documentation 中的示例应说明原因。
您的问题在于传递给串联的输入。您需要指定右轴来连接两个不同形状的矩阵或张量,因为它们在 Tensorflow 中被称为。形状 [32, 12, 128] 和 [32, 32, 128] 在通过传递 1 引用的第二个维度上不同(因为维度从 0 向上开始)。这将导致形状 [32, (12+32), 128],增加第二个维度中的元素。
当您将 axis 指定为 -1(默认值)时,您的串联层在使用前基本上会展平输入,在您的情况下由于尺寸差异而不起作用。
感谢@Majitsima 解决了这个问题。我将输入交换到注意力层,而不是
attention=Attention(name="attention_layer")
attention_out=attention([encoder_outputs, decoder_outputs])
输入是
attention=Attention(name="attention_layer")
attention_out=attention([decoder_outputs, encoder_outputs])
和
decoder_concatenate=Concatenate(axis=-1, name="concat_layer")([decoder_outputs, attention_out])
现在似乎一切正常,再次感谢@Majitsima,希望这对您有所帮助!
我正在尝试在 Colab 中使用 Keras 实现一个简单的单词级序列到序列模型。我正在使用 Keras 注意力层。这是模型的定义:
embedding_size=200
UNITS=128
encoder_inputs = Input(shape=(None,), name="encoder_inputs")
encoder_embs=Embedding(num_encoder_tokens, embedding_size, name="encoder_embs")(encoder_inputs)
#encoder lstm
encoder = LSTM(UNITS, return_state=True, name="encoder_LSTM") #(encoder_embs)
encoder_outputs, state_h, state_c = encoder(encoder_embs)
encoder_states = [state_h, state_c]
decoder_inputs = Input(shape=(None,), name="decoder_inputs")
decoder_embs = Embedding(num_decoder_tokens, embedding_size, name="decoder_embs")(decoder_inputs)
#decoder lstm
decoder_lstm = LSTM(UNITS, return_sequences=True, return_state=True, name="decoder_LSTM")
decoder_outputs, _, _ = decoder_lstm(decoder_embs, initial_state=encoder_states)
attention=Attention(name="attention_layer")
attention_out=attention([encoder_outputs, decoder_outputs])
decoder_concatenate=Concatenate(axis=-1, name="concat_layer")([decoder_outputs, attention_out])
decoder_outputs = TimeDistributed(Dense(units=num_decoder_tokens,
activation='softmax', name="decoder_denseoutput"))(decoder_concatenate)
model=Model([encoder_inputs, decoder_inputs], decoder_outputs, name="s2s_model")
model.compile(optimizer='RMSprop', loss='categorical_crossentropy', metrics=['accuracy'])
model.summary()
模型编译正常,没有任何问题。编码器和解码器的输入输出形状为:
Encoder training input shape: (4000, 21)
Decoder training input shape: (4000, 12)
Decoder training target shape: (4000, 12, 3106)
--
Encoder test input shape: (385, 21)
这是 model.fit 代码:
model.fit([encoder_training_input, decoder_training_input], decoder_training_target,
epochs=100,
batch_size=32,
validation_split=0.2,)
当我 运行 拟合阶段时,我从连接层得到这个错误:
ValueError: Dimension 1 in both shapes must be equal, but are 12 and 32.
Shapes are [32,12] and [32,32]. for '{{node s2s_model/concat_layer/concat}} = ConcatV2[N=2, T=DT_FLOAT, Tidx=DT_INT32](s2s_model/decoder_LSTM/PartitionedCall:1,
s2s_model/attention_layer/MatMul_1, s2s_model/concat_layer/concat/axis)' with input shapes: [32,12,128], [32,32,128], [] and with computed input tensors: input[2] = <2>.
因此,前32个是batch_size
,128个是decoder_outputs
和attention_out
的输出形状,12是解码器输入的令牌数。我不明白如何解决这个错误,我无法更改我认为的输入令牌的数量,对我有什么建议吗?
将连接层中的axis=-1替换为axis=1。 this documentation 中的示例应说明原因。
您的问题在于传递给串联的输入。您需要指定右轴来连接两个不同形状的矩阵或张量,因为它们在 Tensorflow 中被称为。形状 [32, 12, 128] 和 [32, 32, 128] 在通过传递 1 引用的第二个维度上不同(因为维度从 0 向上开始)。这将导致形状 [32, (12+32), 128],增加第二个维度中的元素。
当您将 axis 指定为 -1(默认值)时,您的串联层在使用前基本上会展平输入,在您的情况下由于尺寸差异而不起作用。
感谢@Majitsima 解决了这个问题。我将输入交换到注意力层,而不是
attention=Attention(name="attention_layer")
attention_out=attention([encoder_outputs, decoder_outputs])
输入是
attention=Attention(name="attention_layer")
attention_out=attention([decoder_outputs, encoder_outputs])
和
decoder_concatenate=Concatenate(axis=-1, name="concat_layer")([decoder_outputs, attention_out])
现在似乎一切正常,再次感谢@Majitsima,希望这对您有所帮助!