如何仅使用 BERT 从序列中提取实体,而无需在 NER 任务中进行分类?

How to use BERT just for ENTITY extraction from a Sequence without classification in the NER task?

我这里的要求是给定一个句子(序列),我想只提取序列中存在的实体,而不将它们分类为NER任务中的类型。我看到 NER 的 BertForTokenClassification 进行了分类。这可以仅适用于提取吗?

BERT能不能只用来做实体extraction/identification

不管 BERT,NER 标记通常是通过使用 IOB 格式(内部、外部、开头)或类似的东西(通常结尾也被显式标记)进行标记来完成的。 insidebeggining 标签包含实体类型。像这样:

Alex B-PER
is O
going O
to O
Los B-LOC
Angeles I-LOC

如果您修改训练数据,使只有一种实体类型,模型将只学习检测实体而不知道实体是什么类型。

Alex B
is O
going O
to O
Los B
Angeles I