如何在BERT上进行语言模型训练

Question

我想在目标语料库上训练 BERT。我在看这个HuggingFace implementation。他们使用 .raw 文件作为训练数据。如果我有训练数据的 .txt 文件，我该如何使用它们的实现？

Answer 1

.raw 仅表示他们使用维基文本的原始版本，它们是包含原始文本的常规文本文件：

We're using the raw WikiText-2 (no tokens were replaced before the tokenization).

数据文件选项的描述也说是文本文件。来自 run_language_modeling.py - L86-L88:

train_data_file: Optional[str] = field(
    default=None, metadata={"help": "The input training data file (a text file)."}
)

因此您可以只指定您的文本文件。

How to do language model training on BERT