我可以仅使用掩码语言模型和下一句预测来微调 BERT 吗？

Can I fine-tune BERT using only masked language model and next sentence prediction?

因此，如果我理解正确的话，主要有两种方法可以使 BERT 适应特定任务：微调（所有权重都发生变化，甚至是预训练的权重）和基于特征（预训练的权重被冻结）。但是，我很困惑。

什么时候使用哪一个？如果你有未标记的数据（无监督学习），你是否应该使用微调？
如果我想微调 BERT，使用屏蔽语言模型和下一句预测不是唯一的选择吗？还有：有必要在上面再放一层神经网络吗？

谢谢。

您的第一个方法应该是尝试 pre-trained 权重。一般来说效果很好。但是，如果您在不同的领域（例如：医学）工作，那么您将需要 fine-tune 来自新领域的数据。同样，您也许能够在域中找到 pre-trained 模型（例如：BioBERT）。

对于添加层，根据您的任务，方法略有不同。例如：对于 question-answering，请查看 TANDA 论文（Transfer and Adapt Pre-Trained Transformer Models for Answer Sentence Selection）。这是一篇非常好读的论文，解释了迁移和适应策略。同样，hugging-face 修改了大多数标准任务的 pre-trained 模型。

我可以仅使用掩码语言模型和下一句预测来微调 BERT 吗？

Can I fine-tune BERT using only masked language model and next sentence prediction?

nlp

bert-language-model