我可以仅使用掩码语言模型和下一句预测来微调 BERT 吗?

Can I fine-tune BERT using only masked language model and next sentence prediction?

因此,如果我理解正确的话,主要有两种方法可以使 BERT 适应特定任务:微调(所有权重都发生变化,甚至是预训练的权重)和基于特征(预训练的权重被冻结)。但是,我很困惑。

  1. 什么时候使用哪一个?如果你有未标记的数据(无监督学习),你是否应该使用微调?
  2. 如果我想微调 BERT,使用屏蔽语言模型和下一句预测不是唯一的选择吗?还有:有必要在上面再放一层神经网络吗?

谢谢。

您的第一个方法应该是尝试 pre-trained 权重。一般来说效果很好。但是,如果您在不同的领域(例如:医学)工作,那么您将需要 fine-tune 来自新领域的数据。同样,您也许能够在域中找到 pre-trained 模型(例如:BioBERT)。

对于添加层,根据您的任务,方法略有不同。例如:对于 question-answering,请查看 TANDA 论文(Transfer and Adapt Pre-Trained Transformer Models for Answer Sentence Selection)。这是一篇非常好读的论文,解释了迁移和适应策略。同样,hugging-face 修改了大多数标准任务的 pre-trained 模型。