StanfordNER 分类器是如何构建的

How are StanfordNER Classifiers built

我正在使用 StanfordNER 分类器。有 4 个分类器

english.all.3class.distsim.crf.ser.gz
english.muc.7class.distsim.crf.ser.gz
english.conll.4class.distsim.crf.ser.gz
example.serialized.ncc.ncc.ser.gz

这些分类器是如何构建的?由于他们每个人都基于不同的语料库,这是我的猜测

  1. 在语料库上训练像 SVM 这样的机器学习分类器和 OVR(对于多标签案例)来检测像 ORGANIZATION,[=14 这样的实体=],LOCATION 等。这意味着训练数据将是语料库中文档的整个文本。对于那段文本,我们明确指出 ORGANIZATIONs、PERSONs 和 LOCATIONs。因此,分类器将能够预测这些实体。

  2. 将机器学习分类器训练到 link 个 POS 标签,其中包含 ORGANIZATIONPERSONLOCATION 等实体。例如,可以训练一个分类器来预测哪些专有名词应该是 ORGANIZATION

这是正确的大图吗?我只是想弄清楚如何构建我自己的 NER。

是的,模型是在监督数据上训练的。它们是进行 multi-class 概率序列分类的一阶 CRF(因此不是 OVR,不是 SVM)。您可以在 the Stanford NER page.

上找到对 NER 和 Stanford NER 的介绍