StanfordNER 分类器是如何构建的
How are StanfordNER Classifiers built
我正在使用 StanfordNER 分类器。有 4 个分类器
english.all.3class.distsim.crf.ser.gz
english.muc.7class.distsim.crf.ser.gz
english.conll.4class.distsim.crf.ser.gz
example.serialized.ncc.ncc.ser.gz
这些分类器是如何构建的?由于他们每个人都基于不同的语料库,这是我的猜测
在语料库上训练像 SVM
这样的机器学习分类器和 OVR
(对于多标签案例)来检测像 ORGANIZATION
,[=14 这样的实体=],LOCATION
等。这意味着训练数据将是语料库中文档的整个文本。对于那段文本,我们明确指出 ORGANIZATION
s、PERSON
s 和 LOCATION
s。因此,分类器将能够预测这些实体。
将机器学习分类器训练到 link 个 POS 标签,其中包含 ORGANIZATION
、PERSON
、LOCATION
等实体。例如,可以训练一个分类器来预测哪些专有名词应该是 ORGANIZATION
这是正确的大图吗?我只是想弄清楚如何构建我自己的 NER。
是的,模型是在监督数据上训练的。它们是进行 multi-class 概率序列分类的一阶 CRF(因此不是 OVR,不是 SVM)。您可以在 the Stanford NER page.
上找到对 NER 和 Stanford NER 的介绍
我正在使用 StanfordNER 分类器。有 4 个分类器
english.all.3class.distsim.crf.ser.gz
english.muc.7class.distsim.crf.ser.gz
english.conll.4class.distsim.crf.ser.gz
example.serialized.ncc.ncc.ser.gz
这些分类器是如何构建的?由于他们每个人都基于不同的语料库,这是我的猜测
在语料库上训练像
SVM
这样的机器学习分类器和OVR
(对于多标签案例)来检测像ORGANIZATION
,[=14 这样的实体=],LOCATION
等。这意味着训练数据将是语料库中文档的整个文本。对于那段文本,我们明确指出ORGANIZATION
s、PERSON
s 和LOCATION
s。因此,分类器将能够预测这些实体。将机器学习分类器训练到 link 个 POS 标签,其中包含
ORGANIZATION
、PERSON
、LOCATION
等实体。例如,可以训练一个分类器来预测哪些专有名词应该是ORGANIZATION
这是正确的大图吗?我只是想弄清楚如何构建我自己的 NER。
是的,模型是在监督数据上训练的。它们是进行 multi-class 概率序列分类的一阶 CRF(因此不是 OVR,不是 SVM)。您可以在 the Stanford NER page.
上找到对 NER 和 Stanford NER 的介绍