如果 BERT 的 [CLS] 可以针对各种句子分类目标进行再训练，那么 [SEP] 呢？

If BERT's [CLS] can be retrained for a variety of sentence classification objectives, what about [SEP]?

在 BERT 预训练中，[CLS] 标记被嵌入到分类器的输入中，分类器的任务是执行下一句预测任务（或者，在某些 BERT 变体中，还有其他任务，例如 ALBERT 的句序预测）；这有助于整个变压器的预训练，也有助于使 [CLS] 位置随时可用于其他 "sentence scale" 任务的再训练。

我想知道[SEP]是否也可以用同样的方式重新训练。虽然 [CLS] 可能更容易重新训练，因为转换器已经接受过训练，可以将其嵌入整个句子的含义，而 [SEP] 没有这些 "connections"（人们会假设），这可能仍然有效有足够的微调。

有了这个，可以为两种不同的分类任务重新训练同一个模型，一种使用 [CLS]，一种使用 [SEP]。

我错过了什么吗？这行不通有什么原因吗？

理论上它可以给出 'some' 结果，所以它可以工作（这只是一个象征），但问题是你为什么要这样做。这些令牌已针对特定目的进行了预训练。我想 'retrain' 你的意思是微调，所以如果你突然将 SEP 标记作为分类标记进行微调，我认为你不会得到好的结果，因为你只在整个语言模型中微调一个标记对于它甚至没有经过预训练的任务。

如果 BERT 的 [CLS] 可以针对各种句子分类目标进行再训练，那么 [SEP] 呢？

If BERT's [CLS] can be retrained for a variety of sentence classification objectives, what about [SEP]?

transformer

bert-language-model

huggingface-transformers