BERT 人数

BERT Heads Count

根据我阅读的文献,

Bert Base 有 12 个编码器层和 12 个注意力头。 Bert Large 有 24 个编码器层和 16 个注意力头。

为什么 Bert large 有 16 个注意力头?

注意头的数量与(编码器)层的数量无关。 但是,每个模型的隐藏大小(bert-base 为 768,bert-large 为 1024)之间存在内在联系,这在 the original Transformers paper 中进行了解释。 本质上,作者所做的选择是自注意力块大小(d_k)等于隐藏维度(d_hidden)除以头数(h),或者正式

d_k = d_hidden / h

由于标准选择似乎是d_k = 64,我们可以从我们的参数中推断出最终大小:

h = d_hidden / d_k = 1024 / 64 = 16

这正是您在 bert-large 中查看的值。