如何处理 TensorFlow 中具有可变长度序列的批处理?
How to deal with batches with variable-length sequences in TensorFlow?
我试图使用 RNN(特别是 LSTM)进行序列预测。但是,我 运行 遇到了可变序列长度的问题。例如,
sent_1 = "I am flying to Dubain"
sent_2 = "I was traveling from US to Dubai"
我正在尝试使用基于此 Benchmark for building a PTB LSTM model 的简单 RNN 预测当前单词之后的下一个单词。
但是,num_steps
参数(用于展开到之前的隐藏状态)在每个 Tensorflow 的 epoch 中应该保持不变。基本上,批处理句子是不可能的,因为句子的长度不同。
# inputs = [tf.squeeze(input_, [1])
# for input_ in tf.split(1, num_steps, inputs)]
# outputs, states = rnn.rnn(cell, inputs, initial_state=self._initial_state)
在这里,num_steps
需要在我的案例中为每句话进行更改。我尝试了几种破解方法,但似乎没有任何效果。
您可以使用以下描述的分桶和填充思想:
此外,创建 RNN 网络的 rnn 函数接受参数 sequence_length。
例如,您可以创建相同大小的句子桶,用必要数量的零填充它们,或者用代表零词的占位符填充它们,然后将它们与 seq_length = len( zero_words).
seq_length = tf.placeholder(tf.int32)
outputs, states = rnn.rnn(cell, inputs, initial_state=initial_state, sequence_length=seq_length)
sess = tf.Session()
feed = {
seq_length: 20,
#other feeds
}
sess.run(outputs, feed_dict=feed)
也看看这个 reddit 线程:
Tensorflow basic RNN example with 'variable length' sequences
您可以使用
中描述的分桶和填充的想法
创建 RNN 网络的 rnn 函数也接受参数 sequence_length。
例如,您可以创建相同大小的句子桶,用必要数量的零或代表零字的占位符填充它们,然后将它们与 seq_length = len(zero_words).
seq_length = tf.placeholder(tf.int32)
outputs, states = rnn.rnn(cell, inputs,initial_state=initial_state,sequence_length=seq_length)
sess = tf.Session()
feed = {
seq_lenght: 20,
#other feeds
}
sess.run(outputs, feed_dict=feed)
在这里,最重要的是,如果你想利用一个句子获得的状态作为下一个句子的状态,当你提供 sequence_length 时,(假设 20 和填充后的句子是 50) 。你想要在第 20 个时间步获得的状态。为此,做
tf.pack(states)
在那次通话后
for i in range(len(sentences)):
state_mat = session.run([states],{
m.input_data: x,m.targets: y,m.initial_state: state, m.early_stop:early_stop })
state = state_mat[early_stop-1,:,:]
您可以限制输入序列的最大长度,将较短的序列填充到该长度,记录每个序列的长度并使用 tf.nn.dynamic_rnn 。它像往常一样处理输入序列,但是在序列的最后一个元素之后,由 seq_length
表示,它只是复制细胞状态,对于输出,它输出零张量。
您可以改用 dynamic_rnn
并通过将数组传递给 sequence_length
参数来指定每个序列的长度,即使在一个批次中也是如此。
示例如下:
def length(sequence):
used = tf.sign(tf.reduce_max(tf.abs(sequence), reduction_indices=2))
length = tf.reduce_sum(used, reduction_indices=1)
length = tf.cast(length, tf.int32)
return length
from tensorflow.nn.rnn_cell import GRUCell
max_length = 100
frame_size = 64
num_hidden = 200
sequence = tf.placeholder(tf.float32, [None, max_length, frame_size])
output, state = tf.nn.dynamic_rnn(
GRUCell(num_hidden),
sequence,
dtype=tf.float32,
sequence_length=length(sequence),
)
代码取自一个perfect article的话题,也请查收。
更新:dynamic_rnn
与 rnn
上的另一个 great post 你可以找到
很抱歉 post 关于一个死问题,但我刚刚提交了一个 PR 以获得更好的解决方案。 dynamic_rnn
非常灵活但非常慢。如果它是您唯一的选择,它会起作用,但 CuDNN 速度要快得多。此 PR 为 CuDNNLSTM
添加了对可变长度的支持,因此希望您能尽快使用它。
您需要按长度降序对序列进行排序。然后你可以pack_sequence
,运行你的RNN,然后unpack_sequence
。
我试图使用 RNN(特别是 LSTM)进行序列预测。但是,我 运行 遇到了可变序列长度的问题。例如,
sent_1 = "I am flying to Dubain"
sent_2 = "I was traveling from US to Dubai"
我正在尝试使用基于此 Benchmark for building a PTB LSTM model 的简单 RNN 预测当前单词之后的下一个单词。
但是,num_steps
参数(用于展开到之前的隐藏状态)在每个 Tensorflow 的 epoch 中应该保持不变。基本上,批处理句子是不可能的,因为句子的长度不同。
# inputs = [tf.squeeze(input_, [1])
# for input_ in tf.split(1, num_steps, inputs)]
# outputs, states = rnn.rnn(cell, inputs, initial_state=self._initial_state)
在这里,num_steps
需要在我的案例中为每句话进行更改。我尝试了几种破解方法,但似乎没有任何效果。
您可以使用以下描述的分桶和填充思想:
此外,创建 RNN 网络的 rnn 函数接受参数 sequence_length。
例如,您可以创建相同大小的句子桶,用必要数量的零填充它们,或者用代表零词的占位符填充它们,然后将它们与 seq_length = len( zero_words).
seq_length = tf.placeholder(tf.int32)
outputs, states = rnn.rnn(cell, inputs, initial_state=initial_state, sequence_length=seq_length)
sess = tf.Session()
feed = {
seq_length: 20,
#other feeds
}
sess.run(outputs, feed_dict=feed)
也看看这个 reddit 线程:
Tensorflow basic RNN example with 'variable length' sequences
您可以使用
中描述的分桶和填充的想法创建 RNN 网络的 rnn 函数也接受参数 sequence_length。
例如,您可以创建相同大小的句子桶,用必要数量的零或代表零字的占位符填充它们,然后将它们与 seq_length = len(zero_words).
seq_length = tf.placeholder(tf.int32)
outputs, states = rnn.rnn(cell, inputs,initial_state=initial_state,sequence_length=seq_length)
sess = tf.Session()
feed = {
seq_lenght: 20,
#other feeds
}
sess.run(outputs, feed_dict=feed)
在这里,最重要的是,如果你想利用一个句子获得的状态作为下一个句子的状态,当你提供 sequence_length 时,(假设 20 和填充后的句子是 50) 。你想要在第 20 个时间步获得的状态。为此,做
tf.pack(states)
在那次通话后
for i in range(len(sentences)):
state_mat = session.run([states],{
m.input_data: x,m.targets: y,m.initial_state: state, m.early_stop:early_stop })
state = state_mat[early_stop-1,:,:]
您可以限制输入序列的最大长度,将较短的序列填充到该长度,记录每个序列的长度并使用 tf.nn.dynamic_rnn 。它像往常一样处理输入序列,但是在序列的最后一个元素之后,由 seq_length
表示,它只是复制细胞状态,对于输出,它输出零张量。
您可以改用 dynamic_rnn
并通过将数组传递给 sequence_length
参数来指定每个序列的长度,即使在一个批次中也是如此。
示例如下:
def length(sequence):
used = tf.sign(tf.reduce_max(tf.abs(sequence), reduction_indices=2))
length = tf.reduce_sum(used, reduction_indices=1)
length = tf.cast(length, tf.int32)
return length
from tensorflow.nn.rnn_cell import GRUCell
max_length = 100
frame_size = 64
num_hidden = 200
sequence = tf.placeholder(tf.float32, [None, max_length, frame_size])
output, state = tf.nn.dynamic_rnn(
GRUCell(num_hidden),
sequence,
dtype=tf.float32,
sequence_length=length(sequence),
)
代码取自一个perfect article的话题,也请查收。
更新:dynamic_rnn
与 rnn
上的另一个 great post 你可以找到
很抱歉 post 关于一个死问题,但我刚刚提交了一个 PR 以获得更好的解决方案。 dynamic_rnn
非常灵活但非常慢。如果它是您唯一的选择,它会起作用,但 CuDNN 速度要快得多。此 PR 为 CuDNNLSTM
添加了对可变长度的支持,因此希望您能尽快使用它。
您需要按长度降序对序列进行排序。然后你可以pack_sequence
,运行你的RNN,然后unpack_sequence
。