标记和训练 NER 数据集

Tagging and Training NER dataset

我有一个数据集，我想为命名实体识别标记它。我的数据集是波斯语。我想知道我应该如何标记像 :

这样的表达式

*** آای مهدی کاظمی = 迈赫迪·卡泽米先生/威尔·史密斯先生。 >>> (names with titles) 我应该将所有人标记为个人还是只标记名字和姓氏？（我的意思是我也应该标记 "Mr"）

先生 >> b_per || >> O先生

迈赫迪 >> i_per ||迈赫迪 >> b_per

风美 >> i_per ||风美 >> i_per

*** los ور = Noor hospital >>> 我应该只标记名称还是名称和医院都标记为命名实体？

*** 埃菲尔铁塔/国防部（我指的是美国国防部）>>> 在波斯语中它被称为： وòارت دواع (vezarate defa) 我应该只标记 Defense 吗？还是一起？

学校、电影、城市、国家和...还有更多示例，因为我们在命名实体之前使用实体 class。

如果你能帮助我标记这个数据集，我将不胜感激。

我会从 CoNLL 2003 训练数据中给你一些例子：

"Mr." 未被标记为人物的一部分，因此头衔被忽略。

"Columbia Presbyterian Hospital" 被标记为 (LOC, LOC, LOC)

"a New York hospital" (O, LOC, LOC, O)

"Ministry of Commerce" 是（组织、组织、组织）

我觉得"Eiffel Tower"应该是(LOC,LOC)

我相信你正在前往斯坦福 NLP 和 BIO 格式。但如果您还考虑其他选项，您可以查看结构化实体，例如：http://www.afcp-parole.org/etape/docs/etape-06022012-quaero-en.pdf.

那些允许将实体描述为树，为信息提取提供更精细的分析。注释更乏味，但如果您打算将注释用于语义目的，而不仅仅是索引，则可能相关。

通常，您可以按照希望输出的方式进行标记。例如，是否要包含标题由您决定。但是，Core NLP 不会标记重叠的实体，因此您必须在以某人命名的医院等情况下做出决定。