如何加快tensorflow的rnn训练速度?

How to speedup rnn training speed of tensorflow?

现在根据 tensorflow-char-rnn 我开始一个 word-rnn 项目来预测下一个单词。 但是我发现我的火车数据集中速度太慢了。这是我的训练细节:

机器详情:

在我的测试中,训练数据1个epoch的时间需要17天! 实在是太慢了,然后我把seq2seq.rnn_decoder改成了tf.nn.dynamic_rnn,但是时间还是17天

我想找到太慢的原因是我的代码造成的还是一直这么慢? 因为我听到一些谣言说 Tensorflow rnn 比其他 DL Framework 慢。

这是我的模型代码:

class SeqModel():
def __init__(self, config, infer=False):
    self.args = config
    if infer:
        config.batch_size = 1
        config.seq_length = 1

    if config.model == 'rnn':
        cell_fn = rnn_cell.BasicRNNCell
    elif config.model == 'gru':
        cell_fn = rnn_cell.GRUCell
    elif config.model == 'lstm':
        cell_fn = rnn_cell.BasicLSTMCell
    else:
        raise Exception("model type not supported: {}".format(config.model))

    cell = cell_fn(config.hidden_size)

    self.cell = cell = rnn_cell.MultiRNNCell([cell] * config.num_layers)

    self.input_data = tf.placeholder(tf.int32, [config.batch_size, config.seq_length])
    self.targets = tf.placeholder(tf.int32, [config.batch_size, config.seq_length])
    self.initial_state = cell.zero_state(config.batch_size, tf.float32)

    with tf.variable_scope('rnnlm'):
        softmax_w = tf.get_variable("softmax_w", [config.hidden_size, config.vocab_size])
        softmax_b = tf.get_variable("softmax_b", [config.vocab_size])

        embedding = tf.get_variable("embedding", [config.vocab_size, config.hidden_size])
        inputs = tf.nn.embedding_lookup(embedding, self.input_data)


    outputs, last_state = tf.nn.dynamic_rnn(cell, inputs, initial_state=self.initial_state)

    # [seq_size * batch_size, hidden_size]
    output = tf.reshape(tf.concat(1, outputs), [-1, config.hidden_size])

    self.logits = tf.matmul(output, softmax_w) + softmax_b
    self.probs = tf.nn.softmax(self.logits)

    self.final_state = last_state


    loss = seq2seq.sequence_loss_by_example([self.logits],
                                            [tf.reshape(self.targets, [-1])],
                                            [tf.ones([config.batch_size * config.seq_length])],
                                            config.vocab_size)
    self.cost = tf.reduce_sum(loss) / config.batch_size / config.seq_length

    self.lr = tf.Variable(0.0, trainable=False)
    tvars = tf.trainable_variables()
    grads, _ = tf.clip_by_global_norm(tf.gradients(self.cost, tvars),
                                      config.grad_clip)
    optimizer = tf.train.AdamOptimizer(self.lr)
    self.train_op = optimizer.apply_gradients(zip(grads, tvars))

Here is the GPU load during the training

非常感谢。

正如您提到的 batch_size 调优非常重要,它可以带来令人印象深刻的加速,但请检查您的困惑是否保持相关性。

监控你的 GPU activity 你能给你一些关于潜在 I/O 瓶颈的提示吗?

最重要的是,使用 sampled softmax 而不是常规 softmax 的速度更快。这将要求您使用 [config.vocab_size, config.hidden_size] 权重矩阵而不是 [config.hidden_size, config.vocab_size]。这绝对是我的观点。

希望对您有所帮助。

pltrdy

另一种可以加快训练速度的方法,以及您没有充分利用 GPU 的可能原因,是您正在使用占位符。如果使用 Tensorflow < 1.2,则应该使用队列,否则使用 tf.contrib.data 模块。

https://www.tensorflow.org/programmers_guide/threading_and_queues

这里有 2 行代码加快了我的执行速度。

tf.compat.v1.disable_eager_execution()
tf.config.optimizer.set_jit(True)

查看 here for eager execution, and here jit 来判断它是否对您的情况有帮助。