命名实体:与人的头衔有关的指南

Named entities: guidelines that pertain to titles of persons

我正在处理文本语料库中命名实体的注释任务。我在文档 1999 Named Entity Recognition Task Definition 中找到了指南。在那份文件中,有一些关于人称的指导方针,特别是以下的:诸如“Mr.”之类的称谓。和角色名称(如“总统”)不被视为人名的一部分。 例如,在“先生”中。 Harry Schearer”或“President Harry Schearer”,只能将Harry Schearer标记为人物。

虽然在斯坦福 NER 中,有很多在人员标签中包含标题的示例(韦斯顿船长、佩里先生等)。请参阅 here 他们提供的公报示例。在他们的人物标签看来,似乎连“夫人”也一样。和贝茨小姐”应该被标记为一个人。

问题:最普遍接受的指南是什么?

如果您从这里下载 Stanford CoreNLP 3.5.2:http://nlp.stanford.edu/software/corenlp.shtml

和运行这个命令:

java -Xmx6g -cp "*:." edu.stanford.nlp.pipeline.StanfordCoreNLP -ssplit.eolonly -annotators tokenize,ssplit,pos,lemma,ner -file ner_examples.txt -outputFormat text

(假设你在ner_examples.txt中放了一些例句,每行一个句子)

标记的标记将显示在:ner_examples.txt.out

您可以尝试一些句子,看看我们当前的 NER 系统如何处理不同的情况。该系统是在没有标题标记为 PERSON 的数据上训练的,因此我们当前的系统通常不会将标题标记为 PERSON。