有没有办法正确标记(PoS 标记)一起形成短语的单词?

Is there a way to correctly tag (PoS Tagging) the words which are forming a phrase together?

我尝试了各种方法来正确标记一堆构成短语的单词(尤其是名词短语),但都没有成功。

示例:'the'、'first'、'early'、'morning'、'sunbeams'

'early' 和 'morning' 被错误地标记为 'Noun',其中预期结果应为:('first', 'adverb'), ('early', 'adverb'), ('morning', 'adjective'), ('sunbeams', 'noun')

你能推荐一个正确标记这些词的程序吗?

提前致谢。

词性标注器通常使用隐马尔可夫模型。如果你的数据没有用这些方法正确标记,那么要么你的标记器(自制的?)不适合你的输入数据,要么你的训练数据不充分(太小,错误注释等)。各种方法我假设是来自 NLTK、spaCy 的标注器或来自斯坦福的工具 (https://nlp.stanford.edu/software/)。这些软件包将完成当前研究质量的工作,因此如果它仍然容易出错,您将无法修复它。 如果你手头有一个大集群,如果你愿意,可以使用 n > 3 的 n-gram 构建你自己的标注器,但我怀疑这会比上面提到的模块更好。