spaCy 没有提取句子中的所有 ORG 标签

Question

我正在使用 spaCy 尝试在句子中提取 ORG 实体标签。然而，它并没有选择所有的标签，它选择的标签因组织名称的书写方式而异。例如：

import spacy
from spacy import displacy

doc = nlp("Apple, Microsoft, Google, and Facebook are all techo companies from the USA")
displacy.render(doc, style='ent')    # I am using `.render` as I am in a notebook

生成：这明显漏掉了Facebook

而

import spacy
from spacy import displacy

doc = nlp("Apple, Microsoft Inc, Google, and Facebook are all techo companies from the USA")
displacy.render(doc, style='ent')

生成：现在缺少 Google 和 Facebook.

关于我做错了什么有什么想法吗？

Answer 1

你没有做错任何事，只是模型不完美。请参阅 Github 上的 this issue，其中解释了这只是统计模型工作原理的一部分。

请注意，对于我来说，您的示例似乎可以按预期使用最新的大型英语模型。

spaCy 没有提取句子中的所有 ORG 标签

spaCy not picking up all ORG tags in sentence

python

spacy

spacy-3