标记和训练 NER 数据集

Tagging and Training NER dataset

我有一个数据集,我想为命名实体识别标记它。我的数据集是波斯语。 我想知道我应该如何标记像 :

这样的表达式

*** آای مهدی کاظمی = 迈赫迪·卡泽米先生/威尔·史密斯先生。 >>> (names with titles) 我应该将所有人标记为个人还是只标记名字和姓氏? (我的意思是我也应该标记 "Mr")

先生 >> b_per || >> O先生

迈赫迪 >> i_per ||迈赫迪 >> b_per

风美 >> i_per ||风美 >> i_per

*** los ور = Noor hospital >>> 我应该只标记名称还是名称和医院都标记为命名实体?

*** 埃菲尔铁塔/国防部(我指的是美国国防部)>>> 在波斯语中它被称为: وòارت دواع (vezarate defa) 我应该只标记 Defense 吗?还是一起?

学校、电影、城市、国家和...还有更多示例,因为我们在命名实体之前使用实体 class。

如果你能帮助我标记这个数据集,我将不胜感激。

我会从 CoNLL 2003 训练数据中给你一些例子:

"Mr." 未被标记为人物的一部分,因此头衔被忽略。

"Columbia Presbyterian Hospital" 被标记为 (LOC, LOC, LOC)

"a New York hospital" (O, LOC, LOC, O)

"Ministry of Commerce" 是(组织、组织、组织)

我觉得"Eiffel Tower"应该是(LOC,LOC)

我相信你正在前往斯坦福 NLP 和 BIO 格式。但如果您还考虑其他选项,您可以查看结构化实体,例如:http://www.afcp-parole.org/etape/docs/etape-06022012-quaero-en.pdf.

那些允许将实体描述为树,为信息提取提供更精细的分析。注释更乏味,但如果您打算将注释用于语义目的,而不仅仅是索引,则可能相关。

通常,您可以按照希望输出的方式进行标记。例如,是否要包含标题由您决定。但是,Core NLP 不会标记重叠的实体,因此您必须在以某人命名的医院等情况下做出决定。