关于 BertForMaskedLM
About BertForMaskedLM
我最近阅读了有关 Bert 的内容,并想将 BertForMaskedLM 用于 fill_mask 任务。我了解 Bert 架构。另外,据我所知,BertForMaskedLM 是从 Bert 构建的,顶部有一个语言建模头,但我不知道 语言建模头 在这里意味着什么。谁能给我一个简单的解释。
正如您正确理解的那样,BertForMaskedLM 使用语言建模 (LM) 头。
一般来说,在这种情况下,LM head 是一个线性层,具有隐藏状态的输入维度(对于 BERT-base,它将是 768)和词汇量大小的输出维度。因此,它将 BERT 模型的隐藏状态输出映射到词汇表中的特定标记。损失是根据给定令牌相对于目标令牌获得的分数计算的。
我最近阅读了有关 Bert 的内容,并想将 BertForMaskedLM 用于 fill_mask 任务。我了解 Bert 架构。另外,据我所知,BertForMaskedLM 是从 Bert 构建的,顶部有一个语言建模头,但我不知道 语言建模头 在这里意味着什么。谁能给我一个简单的解释。
正如您正确理解的那样,BertForMaskedLM 使用语言建模 (LM) 头。
一般来说,在这种情况下,LM head 是一个线性层,具有隐藏状态的输入维度(对于 BERT-base,它将是 768)和词汇量大小的输出维度。因此,它将 BERT 模型的隐藏状态输出映射到词汇表中的特定标记。损失是根据给定令牌相对于目标令牌获得的分数计算的。