在特定领域继续训练预训练 BERT 模型的最简单方法是什么？

What is the simplest way to continue training a pre-trained BERT model, on a specific domain?

我想使用预训练的 BERT 模型，以便将其用于文本分类任务（我正在使用 Huggingface 库）。但是，预训练模型是在与我不同的域上训练的，而且我有一个大型未注释的数据集，可用于对其进行微调。如果我只使用我标记的示例并在训练特定任务 (BertForSequenceClassification) 时“随时随地”对其进行微调，则数据集太小而无法为特定领域调整语言模型。最好的方法是什么？谢谢！

让我们先澄清几点，以减少歧义。

BERT 使用两个预训练目标：掩码语言建模 (MLM) 和下一句预测。
您提到有一个大型未注释的数据集，您计划使用它来微调您的 BERT 模型。这不是微调的工作原理。为了微调您的预训练模型，您需要一个 带注释的 数据集，即文档和 class 序列对 classification 下游任务。

那你能做什么？首先，使用由特定领域词汇组成的未注释数据集扩展您的通用领域分词器。然后，使用这个扩展的分词器，您可以继续在 MLM and/or NSP 目标上进行预训练，以修改您的词嵌入。最后，使用带注释的数据集微调您的模型。

在特定领域继续训练预训练 BERT 模型的最简单方法是什么？

What is the simplest way to continue training a pre-trained BERT model, on a specific domain?

nlp

text-classification

bert-language-model

huggingface-transformers

pytorch-lightning