BERT 中的变压器编码器和解码器的输入是什么?

What are the inputs to the transformer encoder and decoder in BERT?

我正在阅读 BERT paper and was not clear regarding the inputs to the transformer 编码器和解码器。

对于学习掩码语言模型(完形填空任务),论文中说有 15% 的词条被掩码,网络被训练来预测被掩码的词条。既然如此,transformer编码器和解码器的输入是什么?

transformer编码器的输入是这个输入表示(见上图)。如果是这样,解码器输入是什么?

另外,输出损失是如何计算的?它是仅针对屏蔽位置的 softmax 吗?为此,相同的线性层用于所有屏蔽标记?

啊,但是你看,BERT 不包含 Transformer 解码器。 它只是编码器部分,在上面添加了分类器。

对于掩码词预测,分类器充当某种解码器,试图重建掩码词的真实身份。 Classifying Non-masked 不包含在分类任务中,不影响损失。

BERT 还接受过预测一对句子是否真的先于另一个句子的训练。

我不记得这两个损失是如何加权的。

我希望这能描绘出更清晰的画面。