权重反向传播
Backpropagation in bert
我想知道当人们说预训练的bert模型时,是否只训练了最终的分类神经网络
或
Transformer 内部是否有任何通过反向传播和分类神经网络进行的更新
在预训练期间,对模型进行了完整的训练(更新权重)。此外,BERT 是在 Masked Language Model objective 而不是分类 objective.
上训练的
在预训练中,您通常会使用大量通用数据来训练模型。因此,它必须使用特定于任务的数据和特定于任务的 objective.
进行微调
因此,如果您的任务是对数据集 X 进行分类。您可以相应地微调 BERT。现在,您将添加一个特定于任务的层(分类层,在 BERT 中,他们在 [CLS]
令牌上使用了密集层)。微调时,您更新预训练模型权重以及新的任务特定层。
我想知道当人们说预训练的bert模型时,是否只训练了最终的分类神经网络
或
Transformer 内部是否有任何通过反向传播和分类神经网络进行的更新
在预训练期间,对模型进行了完整的训练(更新权重)。此外,BERT 是在 Masked Language Model objective 而不是分类 objective.
上训练的在预训练中,您通常会使用大量通用数据来训练模型。因此,它必须使用特定于任务的数据和特定于任务的 objective.
进行微调因此,如果您的任务是对数据集 X 进行分类。您可以相应地微调 BERT。现在,您将添加一个特定于任务的层(分类层,在 BERT 中,他们在 [CLS]
令牌上使用了密集层)。微调时,您更新预训练模型权重以及新的任务特定层。