如何在BERT上进行语言模型训练
How to do language model training on BERT
我想在目标语料库上训练 BERT。我在看这个HuggingFace implementation。
他们使用 .raw 文件作为训练数据。如果我有训练数据的 .txt 文件,我该如何使用它们的实现?
.raw
仅表示他们使用维基文本的原始版本,它们是包含原始文本的常规文本文件:
We're using the raw WikiText-2 (no tokens were replaced before the tokenization).
数据文件选项的描述也说是文本文件。来自 run_language_modeling.py - L86-L88:
train_data_file: Optional[str] = field(
default=None, metadata={"help": "The input training data file (a text file)."}
)
因此您可以只指定您的文本文件。
我想在目标语料库上训练 BERT。我在看这个HuggingFace implementation。 他们使用 .raw 文件作为训练数据。如果我有训练数据的 .txt 文件,我该如何使用它们的实现?
.raw
仅表示他们使用维基文本的原始版本,它们是包含原始文本的常规文本文件:
We're using the raw WikiText-2 (no tokens were replaced before the tokenization).
数据文件选项的描述也说是文本文件。来自 run_language_modeling.py - L86-L88:
train_data_file: Optional[str] = field(
default=None, metadata={"help": "The input training data file (a text file)."}
)
因此您可以只指定您的文本文件。