命名实体识别 (Ner) - 组织名称数据库

Named Entity Recognition (Ner) - Organization Name Database

我正在研究我当前的毕业项目,即土耳其语命名实体识别。当我使用人名和位置(有时位置可以使用不同的语言,例如 Taksim/Istanbul 中的希尔顿酒店)时,识别器应该捕捉土耳其语单词,我只需要在我的数据集中添加 "Hotel"具体位置标签,如酒店、餐厅或购物中心。但是当涉及到组织名称标签时。我需要找到一个很好的乐队、产品、公司名称数据集,但不知道如何找到或收集这个数据集

在斯坦福 nlp 工具中:http://nlp.stanford.edu:8080/ner/process

当我输入 Facebook、Nike、Adidas 等时,它可以找到它的组织。那么有什么办法可以让组织名称 Dataset 吗?

如果您对具有这些组织名称的数据资源感兴趣。您可以使用可用的知识库 KB 之一,例如

它们都有这些组织的名称等等,您将需要一些努力才能仅使用它们的类型来提取组织。例如,YAGO 具有包含可能实体及其类型的可下载文件。您可以对其进行过滤,然后您可以使用 hasMeaning 数据来获取所有可能的名称。

Yago 和 BabelNet 已被用于 NER 或命名实体消歧系统 AIDA 和 Babelfy。

AIDA 提供了一个强大的可能实体名称数据集,可用于 NER。

尝试从维基百科收集它们。这是一个巨大的来源。 您可以编写一个解析器,从 wiki 转储中收集特定类型实体的信息。维基百科具有对人物、地点和组织进行分类的层次结构。