是否可以在 spacy 中独立进行词形还原?

Is it possible to do lemmatization independently in spacy?

我正在使用 spacy 预处理数据以进行情绪分析。

我想做的是:

1) 词形还原
2) 词形还原词的词性标注

但是由于 spacy 在调用解析器时会立即执行所有过程,所以它会执行所有计算两次。是否有禁用非必需计算的选项?

查看 Language.call 方法,了解如何按顺序应用各种进程。数量不多——基本上是:

doc = nlp.tokenizer(text)
nlp.tagger(doc)
nlp.parser(doc)
nlp.entity(doc)

如果您需要不同的序列,您应该编写自己的函数以不同方式将它们串在一起。

不过,我不确定您的问题是否合理。如果将词性标注器应用于词形还原文本,统计模型可能不会执行得很好。屈折后缀是重要的​​特征。