BERT 人数

Question

根据我阅读的文献，

Bert Base 有 12 个编码器层和 12 个注意力头。 Bert Large 有 24 个编码器层和 16 个注意力头。

为什么 Bert large 有 16 个注意力头？

Answer 1

注意头的数量与（编码器）层的数量无关。但是，每个模型的隐藏大小（bert-base 为 768，bert-large 为 1024）之间存在内在联系，这在 the original Transformers paper 中进行了解释。本质上，作者所做的选择是自注意力块大小（d_k）等于隐藏维度（d_hidden）除以头数（h），或者正式

d_k = d_hidden / h

由于标准选择似乎是d_k = 64，我们可以从我们的参数中推断出最终大小：

h = d_hidden / d_k = 1024 / 64 = 16

这正是您在 bert-large 中查看的值。

BERT 人数

BERT Heads Count

transformer

bert-language-model