如何为 NER 设置训练和特征模板文件? - CRF++

How to set up training and feature template files for NER? - CRF++

对于命名实体识别的问题,

分词后,如何设置列?看起来文档中的一列是 POS 标签,但这些是从哪里来的呢?我应该自己标记 POS 还是有生成这些的工具?

下一列代表什么? class 比如人物、地点等?它必须采用任何特定格式吗?

是否有完整的 NER 训练文件和模板示例?

您可以在 crf++ 存储库中找到示例训练和测试数据 here。名词短语分块的训练数据如下所示:

Confidence NN B
in IN O
the DT B
pound NN I
is VBZ O
widely RB O
expected VBN O
... etc ...

列是任意的,因为它们可以是任何东西。 CRF++ 要求每行具有相同数量的列(或留空,以分隔句子),并非所有 CRF 包都要求如此。 您必须自己提供数据值;它们是分类器从中学习的数据。

虽然任何内容都可以放在各个栏中,但您应该知道的一个约定是 IOB Format。为了处理潜在的多令牌实体,您将它们标记为 Inside/Outside/Beginning。举个例子可能会有用。假设我们正在训练一个分类器来检测名字——为了简洁起见,我将把它写在一行中:

John/B Smith/I ate/O an/O apple/O ./O

在柱状格式中它看起来像这样:

John B
Smith I
ate O
an O
apple O
. O

使用这些标签,B(开头)表示该词是实体中的第一个词,I 表示词在实体内部(它位于 B 标签之后), O 表示单词不是实体。如果您有不止一种类型的实体,通常使用 B-PERSONI-PLACE 等标签。

使用 IOB 标签的原因是分类器可以学习开始、继续和结束实体的不同转移概率。因此,如果您正在学习公司名称,它会了解到 Inc./I-COMPANY 通常会转换为 O 标签,因为 Inc. 通常是公司名称的最后一部分。

模板是另一个问题,CRF++ 使用它自己的特殊格式,但同样,您可以查看源代码分发中的示例。另见 this question


要回答对我的回答的评论,您可以使用任何 POS 标记器生成 POS 标记。您甚至根本不必提供 POS 标签,尽管它们通常很有用。其他标签可以手动或自动添加;例如,您可以使用已知名词列表作为起点。这是一个使用 spaCy 作为简单名称检测器的示例:

import spacy
nlp = spacy.load('en')
names = ['John', 'Jane', etc...]
text = nlp("John ate an apple.")
for word in text:
    person = 'O' # default not a person
    if str(word) in names:
        person = 'B-PERSON'
    print(str(word), word.pos_, person)