权重反向传播

Backpropagation in bert

我想知道当人们说预训练的bert模型时,是否只训练了最终的分类神经网络

Transformer 内部是否有任何通过反向传播和分类神经网络进行的更新

在预训练期间,对模型进行了完整的训练(更新权重)。此外,BERT 是在 Masked Language Model objective 而不是分类 objective.

上训练的

在预训练中,您通常会使用大量通用数据来训练模型。因此,它必须使用特定于任务的数据和特定于任务的 objective.

进行微调

因此,如果您的任务是对数据集 X 进行分类。您可以相应地微调 BERT。现在,您将添加一个特定于任务的层(分类层,在 BERT 中,他们在 [CLS] 令牌上使用了密集层)。微调时,您更新预训练模型权重以及新的任务特定层。