如何在BERT上进行语言模型训练

How to do language model training on BERT

我想在目标语料库上训练 BERT。我在看这个HuggingFace implementation。 他们使用 .raw 文件作为训练数据。如果我有训练数据的 .txt 文件,我该如何使用它们的实现?

.raw 仅表示他们使用维基文本的原始版本,它们是包含原始文本的常规文本文件:

We're using the raw WikiText-2 (no tokens were replaced before the tokenization).

数据文件选项的描述也说是文本文件。来自 run_language_modeling.py - L86-L88:

train_data_file: Optional[str] = field(
    default=None, metadata={"help": "The input training data file (a text file)."}
)

因此您可以只指定您的文本文件。