POS/NER 能够区分在多个上下文中使用的同一个词吗?
POS/NER able to differentiate between the same word being used in multiple contexts?
我有一个 collection 超过 100 万个正文。在这些身体中有多个实体,其名称模仿常见的停用词和短语。
这在标记数据时产生了问题,因为大约有 50 个实体存在相同问题。为了解决这个问题,我在删除之前禁用了匹配停用词的删除。这很好,但理想情况下,我有办法区分令牌何时真正意味着停止词与实体,因为我只关心何时将其用作实体。
以下是示例摘录:
A determined somebody slept. Prior to this, A could never be comfortable with the idea of responsibility. It was foreign, something heard about through a story passed down by words of U. As slow as it could be, A began to find meaning in the words of a story.
A 和 U 在这里的大部分用法都是 entities/nouns。到目前为止,词性标注仅将 A 标记为限定词,NER 也不会标记该词的任何实例。将目标标签添加到 NER 列表将导致每个实例都被标记为实体,但事实并非如此。
到目前为止,我主要使用 Stanford POS Tagger 和 SpaCY 进行 NER。
我认为你应该尝试训练自己的 NER 模型。
您可以分三步完成,如下所示:
- 在你的语料库中标记一些文档。
您可以使用 spacy-annotator.
- 从头开始训练您的 spacy NER 模型。
您可以按照 spacy docs.
中的说明进行操作
- 使用经过训练的模型预测语料库中的实体。
通过在第 1 步标记大量实体,模型将学习区分确定器和实体。
我有一个 collection 超过 100 万个正文。在这些身体中有多个实体,其名称模仿常见的停用词和短语。
这在标记数据时产生了问题,因为大约有 50 个实体存在相同问题。为了解决这个问题,我在删除之前禁用了匹配停用词的删除。这很好,但理想情况下,我有办法区分令牌何时真正意味着停止词与实体,因为我只关心何时将其用作实体。
以下是示例摘录:
A determined somebody slept. Prior to this, A could never be comfortable with the idea of responsibility. It was foreign, something heard about through a story passed down by words of U. As slow as it could be, A began to find meaning in the words of a story.
A 和 U 在这里的大部分用法都是 entities/nouns。到目前为止,词性标注仅将 A 标记为限定词,NER 也不会标记该词的任何实例。将目标标签添加到 NER 列表将导致每个实例都被标记为实体,但事实并非如此。
到目前为止,我主要使用 Stanford POS Tagger 和 SpaCY 进行 NER。
我认为你应该尝试训练自己的 NER 模型。
您可以分三步完成,如下所示:
- 在你的语料库中标记一些文档。 您可以使用 spacy-annotator.
- 从头开始训练您的 spacy NER 模型。 您可以按照 spacy docs. 中的说明进行操作
- 使用经过训练的模型预测语料库中的实体。
通过在第 1 步标记大量实体,模型将学习区分确定器和实体。