Fast R-CNN 论文中 'per-layer learning rate' 是什么意思?
what is the meaning of 'per-layer learning rate' in Fast R-CNN paper?
我正在阅读一篇关于 Fast-RCNN 模型的论文。
在 'SGD hyper-parameters' 的论文第 2.3 部分中,它说 所有层都使用每层学习率 1 的权重和 2 的偏差和全局学习率 0.001
'per-layer learning rate'和'layer-specific learning rate'是一样的,都是按层给出不同的学习率吗?如果是这样,我不明白他们('per-layer learning rate'和'global learning rate')怎么可以同时申请?
我在pytorch中找到了'layer-specific learning rate'的例子
optim.SGD([
{'params': model.some_layers.parameters()},
{'params': model.some_layers.parameters(), 'lr': 1}
], lr=1e-3, momentum=0.9)
根据论文,这是正确的方法吗?
对不起五月英语
that paper 中的每层术语有些含糊不清。他们不是指层特定的学习率。
All layers use a per-layer learning rate of 1 for weights and 2 for biases and a global learning rate of 0.001.
相关语句为w.r.t。最初编写 Fast R-CNN 的 Caffe 框架 (github link).
他们的意思是他们将权重和偏差的学习率乘数分别设置为 1 和 2。
检查存储库中的任何 prototxt
文件,例如CaffeNet/train.prototxt.
param {
lr_mult: 1
decay_mult: 1
}
param {
lr_mult: 2
decay_mult: 0
}
因此,有效学习率为base_lr*lr_mult
,这里,基础学习率为0.001,定义在solver.prototxt
。
我正在阅读一篇关于 Fast-RCNN 模型的论文。
在 'SGD hyper-parameters' 的论文第 2.3 部分中,它说 所有层都使用每层学习率 1 的权重和 2 的偏差和全局学习率 0.001
'per-layer learning rate'和'layer-specific learning rate'是一样的,都是按层给出不同的学习率吗?如果是这样,我不明白他们('per-layer learning rate'和'global learning rate')怎么可以同时申请?
我在pytorch中找到了'layer-specific learning rate'的例子
optim.SGD([
{'params': model.some_layers.parameters()},
{'params': model.some_layers.parameters(), 'lr': 1}
], lr=1e-3, momentum=0.9)
根据论文,这是正确的方法吗?
对不起五月英语
that paper 中的每层术语有些含糊不清。他们不是指层特定的学习率。
All layers use a per-layer learning rate of 1 for weights and 2 for biases and a global learning rate of 0.001.
相关语句为w.r.t。最初编写 Fast R-CNN 的 Caffe 框架 (github link).
他们的意思是他们将权重和偏差的学习率乘数分别设置为 1 和 2。
检查存储库中的任何 prototxt
文件,例如CaffeNet/train.prototxt.
param {
lr_mult: 1
decay_mult: 1
}
param {
lr_mult: 2
decay_mult: 0
}
因此,有效学习率为base_lr*lr_mult
,这里,基础学习率为0.001,定义在solver.prototxt
。