Huggingface Bert,哪种 Bert 风格的调试训练速度最快?

Huggingface Bert, Which Bert flavor is the fastest to train for debugging?

我正在与 Bert 和图书馆一起工作 https://huggingface.co/models hugginface。 我想知道您会选择哪种可用模型进行调试?

换句话说,哪种型号 trains/loads 在我的 GPU 上速度最快,可以尽可能快地运行? Albert、distillbert 或?

我认为通常使用特定模型进行调试可能很关键,并且完全取决于您要执行的调试类型。

具体来说,考虑标记化方面:因为每个模型还带有自己的 BaseTokenizer class 的派生。因此,只有当您还使用 this specific tokenizer 时,才会显示相应模型的任何细节;例如,您想通过使用 DistilBert 进行调试来调试(稍后的)RoBERTa 实现。 RoBERTa 标记化的任何特定内容在 DistilBERT 中都不会相同,uses BERT's tokenizer。 同样,培训过程的任何细节都可能完全搞砸培训。从轶事证据来看,我使用 RoBERTa 训练模型完成(和收敛),而不是在 BERT 上,这使得提议的对 "debugging" 使用不同模型的解决方案成为潜在危险的替代方案。 ALBERT 再次具有不同于上述任何模型的属性,但类似地,上述方面仍然存在。

如果您想制作服务原型并且只需要介于两者之间的模型,我认为您建议的两种模型都可以,并且 loading/saving 应该只有很小的差异,具体取决于模型参数的确切数量。但请记住,应用程序的推理时间也是值得考虑的事情。除非您绝对确定执行时间不会有任何明显差异,否则至少要确保您也在使用完整模型进行测试。