使用域文本预训练 BERT/RoBERTa 语言模型，预计需要多长时间？哪个更快？

Pre-training BERT/RoBERTa language model using domain text, how long it gonna take estimately? which is faster?

我想使用领域语料库（与情感相关的文本）预训练 BERT 和 RoBERTa MLM。使用 50k~100k 单词需要多长时间。由于 RoBERTa 没有接受过预测下一句 objective 的训练，一次训练 objective 比 BERT 少并且具有更大的小批量和学习率，我认为 RoBERTa 会快得多？

100k 字太少，无法训练像 BERT 或 RoBERTa 这样的大型模型。 the RoBERTa paper 的主要主张是 BERT 实际上训练不足。 BERT 使用 16 GB 的文本数据进行训练，而 RoBERTa 使用 160 GB 的纯文本。

对于您描述的小型特定领域数据，您可以尝试微调现有模型。在这种情况下，我会选择 RoBERTa，因为它似乎经过更好的预训练，没有下一句-objective（为它预处理数据很麻烦）并且它使用 SentencePiece标记化，允许无损去标记化。

使用域文本预训练 BERT/RoBERTa 语言模型，预计需要多长时间？哪个更快？

Pre-training BERT/RoBERTa language model using domain text, how long it gonna take estimately? which is faster?

language-model

bert-language-model

huggingface-transformers