与使用 TF-slim 进行训练相比,使用 vanilla Tensorflow 代码无法实现相同的性能训练

Unable to achieve same performance training with vanilla Tensorflow code compared to training using TF-slim

以下使用 TF-Slim 库加载模型并对其进行微调的代码在分类任务中实现了 90% 的性能(我省略了加载数据和预处理):

with slim.arg_scope(resnet_v1.resnet_arg_scope(weight_decay=0.0001)):
    logits, _ = resnet_v1.resnet_v1_50(images, num_classes=dataset.num_classes, is_training=True)

one_hot_labels = slim.one_hot_encoding(labels, NUM_CLASSES)
tf.losses.softmax_cross_entropy(one_hot_labels, logits)
total_loss = tf.losses.get_total_loss()
global_step = variables.get_or_create_global_step()
lr = tf.train.exponential_decay(LEARNING_RATE, global_step, DECAY_STEPS, GAMMA)
optimizer = tf.train.MomentumOptimizer(learning_rate=lr, momentum=MOMENTUM)
train_op = slim.learning.create_train_op(total_loss, optimizer, global_step=global_step)
init_fn = slim.assign_from_checkpoint_fn("resnet_v1_50.ckpt", VARIABLES_TO_RESTORE)

final_loss = slim.learning.train( train_op, logdir=train_dir, log_every_n_steps=500, save_summaries_secs=25,  init_fn=init_fn, number_of_steps = NUM_STEPS)

我尝试使用 vanilla tensorflow 重写相同的代码以更好地控制训练过程,但出于某种原因,当使用所有相同的超参数(大写)和相同的超参数时,我无法达到相同的性能(性能下降 10%)预处理。不同之处在于图形定义:

        lr = tf.train.exponential_decay(LEARNING_RATE,  global_step, DECAY_STEPS, GAMMA)
        optimizer = tf.train.MomentumOptimizer(learning_rate=lr, momentum=MOMENTUM)
        full_train_op = optimizer.minimize(total_loss, global_step=global_step)

和培训:

for s in range(NUM_STEPS):
    sess.run(train_init_op) #Initializes dataset iterator
    while True:
        try:
            sess.run([full_train_op], feed_dict={is_training: True})                    
        except tf.errors.OutOfRangeError:
            break

slim train函数是不是在做一些其他的操作?我认为它可能使用了批归一化或我没有在我的代码版本中实现的其他东西。

是否可以在tensorflow中加载slim resnet模型并在没有slim train功能的情况下对其进行训练?我对覆盖 train_step_fn.

不感兴趣

这可能是因为 运行 update_ops 与 resnet 的批量规范没有关联。

update_ops = tf.get_collection(tf.GraphKeys.UPDATE_OPS)
optimizer = tf.train.MomentumOptimizer(learning_rate=lr, momentum=MOMENTUM)
with tf.control_dependencies(update_ops):
    full_train_op = optimizer.minimize(total_loss, global_step)
# same training loop