Penn Treebank 词性符号本身在 CoreNLP 代码中的什么位置实际表示?

Where in the CoreNLP code are the Penn Treebank part-of-speech symbols themselves actually represented?

我正在专门寻找一些数据结构、枚举或生成过程,通过它们在内部表示不同的词性。我花了很长时间扫描了一段时间的Javadoc和源代码,找不到我要找的东西。如果可能的话,我想直接访问标签的集合,如果它们存储在某个中心位置。如果我提出的问题构成了关于 CoreNLP 后标记操作方式的幼稚假设,请原谅我,但如果我所描述的内容确实以某种形式存在,这将非常有帮助。谢谢!

我不确定它们是否在代码中的任何地方明确表示。标记器只是将它们输出为字符串而不是任何类型的固定枚举,输出 space 直接从训练数据中推断出来。这样做的好处是您可以在任意标签集上训练完全相同的模型。当然还有您刚刚 运行 遇到的劣势。 :)

但是,对于英语,标签集应该是 Penn Treebank 标签集:https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html