斯坦福分类器 ColumnDataClassifier

Stanford Classifier ColumnDataClassifier

我正在使用斯坦福分类器提供的最大熵算法来执行自定义的命名实体识别。 输出文件提供5列 --> word \t ground-truth \t label \t P(clAnswer) \t P(goldAnswer))

P(clAnswer)P(goldAnswer) 有什么区别,它们是如何计算的?

P(clAnswer) 是模型给出猜测的概率。 P(goldAnswer) 是模型给出真正黄金答案的概率。

如果您想了解分类器背后的算法,可以在此 link 找到资源:https://nlp.stanford.edu/software/classifier.shtml

我应该注意到使用 CRFClassifier 训练 NER 模型是标准的。这里有关于训练 NER 模型的详尽文档:

https://nlp.stanford.edu/software/crf-faq.html#a