实施顺序中哪个先出现:POS 标记或词形还原?

Which comes first in order of implementation: POS Tagging or Lemmatisation?

如果我想制作一个像 NLTK 这样的 NLP 工具包,我会在标记化和规范化之后首先实现哪些功能。词性标记或词形还原?

词性对于词形还原的工作很重要,因为单词根据词性具有不同的含义。并使用此信息,词形还原将 return 基本形式或词条。所以,如果先实施词性标注会更好。

词形还原背后的主要思想是将一个词的不同变形形式归为一个。例如,go, going, gonewent 将变成一个 - go。但是要推导出这个,词形还原必须知道一个词的上下文——这个词是名词还是动词等。

因此,词形还原函数可以将单词和词性作为输入,return处理信息后的词条。

当然要先制作词性标注器。如果您先进行词形还原,那么在使用词性标注器时可能会失去最佳的单词分类,尤其是在 歧义 司空见惯的语言中,例如葡萄牙语。