Fast R-CNN 论文中 'per-layer learning rate' 是什么意思?

what is the meaning of 'per-layer learning rate' in Fast R-CNN paper?

我正在阅读一篇关于 Fast-RCNN 模型的论文。

在 'SGD hyper-parameters' 的论文第 2.3 部分中,它说 所有层都使用每层学习率 1 的权重和 2 的偏差和全局学习率 0.001


'per-layer learning rate'和'layer-specific learning rate'是一样的,都是按层给出不同的学习率吗?如果是这样,我不明白他们('per-layer learning rate'和'global learning rate')怎么可以同时申请?


我在pytorch中找到了'layer-specific learning rate'的例子

optim.SGD([
                {'params': model.some_layers.parameters()},
                {'params': model.some_layers.parameters(), 'lr': 1}
            ], lr=1e-3, momentum=0.9)

根据论文,这是正确的方法吗?


对不起五月英语

that paper 中的每层术语有些含糊不清。他们不是指层特定的学习率。

All layers use a per-layer learning rate of 1 for weights and 2 for biases and a global learning rate of 0.001.

相关语句为w.r.t。最初编写 Fast R-CNN 的 Caffe 框架 (github link).

他们的意思是他们将权重和偏差的学习率乘数分别设置为 1 和 2。

检查存储库中的任何 prototxt 文件,例如CaffeNet/train.prototxt.

  param {
    lr_mult: 1
    decay_mult: 1
  }
  param {
    lr_mult: 2
    decay_mult: 0
  }

因此,有效学习率为base_lr*lr_mult,这里,基础学习率为0.001,定义在solver.prototxt