使用 Core NLP 和 Stanford Parser 执行词性标注的结果不同？

Question

斯坦福解析器和斯坦福 CoreNlp 的词性 (POS) 模型用途不同，这就是为什么通过 Stanford Parser 和 CoreNlp 执行的 POS 标记的输出存在差异。

在线核心 NLP 输出
- The/DT man/NN is/VBZ smoking/NN ./.
- A/DT woman/NN rides/NNS a/DT horse/NN ./.
在线斯坦福解析器输出
- The/DT man/NN is/VBZ smoking/VBG ./.
- A/DT 我man/NN rides/VBZ a/DT horse/NN ./. 同样多句

是否有比较两个模型的文档以及对差异的其他详细解释？

对于这些情况，corenlp 的输出似乎是错误的。除了我在错误分析中检查的几句话外，我想会有很多类似的情况可能会出现这种错误。

Answer 1

这与 CoreNLP 无关，而是关于您是使用 Stanford POS 标记器还是 Stanford Parser（PCFG 解析器）来进行 POS 标记。（PCFG 解析器通常将 POS 标记作为其解析算法的一部分，尽管它也可以使用从其他地方提供的 POS 标记。）两者有时都会出错。平均而言，词性标注器是比解析器稍微好一点的词性标注器。但是，有时解析器会获胜，特别是，有时它似乎更擅长标记涉及集成子句级信息的决策。无论如何，这两个示例都是正确的 - 尽管我敢打赌您也可以找到一些相反的示例。

如果您想在 CoreNLP 中使用 PCFG 解析器进行词性标注，只需省略词性标注器，并提前移动解析器，以便词性标记可用于词形还原器和基于正则表达式的 NER：

java -mx3g -cp "*" edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,parse,lemma,ner,dcoref -file test.txt

但是，我们的一些其他解析器（NN 依赖解析器、SR 选区解析器）需要先完成 POS 标记。

使用 Core NLP 和 Stanford Parser 执行词性标注的结果不同？

Different results performing Part of Speech tagging using Core NLP and Stanford Parser?

part-of-speech

stanford-nlp