BERT 人数
BERT Heads Count
根据我阅读的文献,
Bert Base 有 12 个编码器层和 12 个注意力头。 Bert Large 有 24 个编码器层和 16 个注意力头。
为什么 Bert large 有 16 个注意力头?
注意头的数量与(编码器)层的数量无关。
但是,每个模型的隐藏大小(bert-base
为 768,bert-large
为 1024)之间存在内在联系,这在 the original Transformers paper 中进行了解释。
本质上,作者所做的选择是自注意力块大小(d_k
)等于隐藏维度(d_hidden
)除以头数(h
),或者正式
d_k = d_hidden / h
由于标准选择似乎是d_k = 64
,我们可以从我们的参数中推断出最终大小:
h = d_hidden / d_k = 1024 / 64 = 16
这正是您在 bert-large
中查看的值。
根据我阅读的文献,
Bert Base 有 12 个编码器层和 12 个注意力头。 Bert Large 有 24 个编码器层和 16 个注意力头。
为什么 Bert large 有 16 个注意力头?
注意头的数量与(编码器)层的数量无关。
但是,每个模型的隐藏大小(bert-base
为 768,bert-large
为 1024)之间存在内在联系,这在 the original Transformers paper 中进行了解释。
本质上,作者所做的选择是自注意力块大小(d_k
)等于隐藏维度(d_hidden
)除以头数(h
),或者正式
d_k = d_hidden / h
由于标准选择似乎是d_k = 64
,我们可以从我们的参数中推断出最终大小:
h = d_hidden / d_k = 1024 / 64 = 16
这正是您在 bert-large
中查看的值。