权重和偏差——训练 BERT 时如何解释图表

Weights & Biases - How can I interpret the graphs when training BERT

有人可以帮助我理解在训练 BERT 模型时权重和偏差工具生成的惊人图表吗?

如何解读上图?不知道色散灰是什么意思,也不知道蓝色区域的浓度是好是坏。

提前致谢。

所以这些图表显示了每个时间步长的梯度直方图。

取最左边的图表,layer.10权重。在第 0 步的第一个切片中,灰色阴影告诉您该层的渐变值介于 -40 和 +40 之间。然而,蓝色部分告诉你大部分梯度都在 -2 和 +2 之间(大致)。

因此,阴影表示特定时间步长的特定直方图 bin 中的梯度计数。

现在解释梯度有时会很棘手,但通常我发现这些图有助于检查您的梯度没有爆炸(y 轴上的大值)或折叠(集中在 0 附近的蓝色,几乎没有偏差) ).例如,如果您尝试以非常高的学习率进行训练,您应该会看到 y 轴上的值变为 100 或 1000,这表明您的梯度很大。

最后一个提示是更多地关注权重的梯度而不是偏差,因为这可以提供有关模型正在做什么的更多信息。