如何使用 LSTM 自动编码器在多特征序列的解码时正确忽略填充或缺失的时间步长

How to correctly ignore padded or missing timesteps at decoding time in multi-feature sequences with LSTM autonecoder

我正在尝试通过使用 AUTOENCODER 进行重建来学习文本序列的潜在表示(多个特征 (3))。由于一些序列比最大 pad 长度或我正在考虑的多个时间步长 (seq_length=15) 短,我不确定重建是否会学会忽略时间步长以计算损失或准确性.

我遵循了 的建议来裁剪输出,但我的损失是 nan 和几个准确度。

input1 = keras.Input(shape=(seq_length,),name='input_1')
input2 = keras.Input(shape=(seq_length,),name='input_2')
input3 = keras.Input(shape=(seq_length,),name='input_3')
input1_emb = layers.Embedding(70,32,input_length=seq_length,mask_zero=True)(input1)
input2_emb = layers.Embedding(462,192,input_length=seq_length,mask_zero=True)(input2)
input3_emb = layers.Embedding(84,36,input_length=seq_length,mask_zero=True)(input3)
merged = layers.Concatenate()([input1_emb, input2_emb,input3_emb])
activ_func = 'tanh'
encoded = layers.LSTM(120,activation=activ_func,input_shape=(seq_length,),return_sequences=True)(merged) #
encoded = layers.LSTM(60,activation=activ_func,return_sequences=True)(encoded)
encoded = layers.LSTM(15,activation=activ_func)(encoded)

# Decoder reconstruct inputs
decoded1 = layers.RepeatVector(seq_length)(encoded)
decoded1 = layers.LSTM(60, activation= activ_func , return_sequences=True)(decoded1)
decoded1 = layers.LSTM(120, activation= activ_func , return_sequences=True,name='decoder1_last')(decoded1)

解码器一的输出形状为 (None, 15, 120).

input_copy_1 = layers.TimeDistributed(layers.Dense(70, activation='softmax'))(decoded1)
input_copy_2 = layers.TimeDistributed(layers.Dense(462, activation='softmax'))(decoded1)
input_copy_3 = layers.TimeDistributed(layers.Dense(84, activation='softmax'))(decoded1)

对于每个输出,我正在尝试按照 的建议裁剪 O 填充的时间步长。 padding0 缺少实际输入(由于填充而为零)和 1 否则

@tf.function
def cropOutputs(x):
    #x[0] is softmax of respective feature (time distributed) on top of decoder
    #x[1] is the actual input feature
    padding =  tf.cast( tf.not_equal(x[1][1],0), dtype=tf.keras.backend.floatx())
    print(padding)
    return x[0]*tf.tile(tf.expand_dims(padding, axis=-1),tf.constant([1,x[0].shape[2]], tf.int32))

将裁剪功能应用于所有三个输出。

input_copy_1 = layers.Lambda(cropOutputs, name='input_copy_1', output_shape=(None, 15, 70))([input_copy_1,input1])
input_copy_2 = layers.Lambda(cropOutputs, name='input_copy_2', output_shape=(None, 15, 462))([input_copy_2,input2])
input_copy_3 = layers.Lambda(cropOutputs, name='input_copy_3', output_shape=(None, 15, 84))([input_copy_3,input3])

我的逻辑是裁剪每个特征的时间步长(序列的所有 3 个特征具有相同的长度,这意味着它们一起错过了时间步长)。但是对于时间步长,它们已经根据它们的特征大小 (70,462,84) 应用了 softmax,因此我必须在掩码 [=14 的帮助下制作一个等于此特征大小的零或一的多维掩码数组来将时间步长归零=],并使用多维掩码数组乘以相应的 softmax 表示。

我不确定我是否做对了,因为我对这些输入有 Nan 的损失以及我正在与这个任务一起学习的其他准确性(它只发生在这个裁剪的东西上).

如果对某人有帮助,我最终会直接从损失中裁剪填充的条目(从 中获取一些 keras 代码指针)。

@tf.function
def masked_cc_loss(y_true, y_pred):

        mask = tf.keras.backend.all(tf.equal(y_true, masked_val_hotencoded), axis=-1)
        mask = 1 - tf.cast(mask, tf.keras.backend.floatx())    
 
        loss = tf.keras.losses.CategoricalCrossentropy()(y_true, y_pred) * mask 
        
        return tf.keras.backend.sum(loss) / tf.keras.backend.sum(mask) #  averaging by the number of unmasked entries