斯坦福 POS 标签的数据格式

Data format for Stanford POS-tagger

我正在用我自己的数据重新训练斯坦福词性标注器。我已经按照以下每行一个标记的格式在同一数据上训练了另外两个标记器:

word1_TAG
word2_TAG
word3_TAG
word4_TAG
.

这种格式适用于 Stanford 标注器吗,还是需要每行一个句子?

word1_TAG word2_TAG word3_TAG word4_TAG .

使用第一种格式进行训练和测试会影响斯坦福标注结果吗?

你应该每行一个句子(你的第二个例子)。

使用第一种格式肯定会影响标记结果:您将有效地构建一个 unigram 标记器,其中所有标记都是在没有任何句子上下文的情况下完成的。