是否可以在 spacy 中独立进行词形还原？

Question

我正在使用 spacy 预处理数据以进行情绪分析。

我想做的是：

1) 词形还原
2) 词形还原词的词性标注

但是由于 spacy 在调用解析器时会立即执行所有过程，所以它会执行所有计算两次。是否有禁用非必需计算的选项？

Answer 1

查看 Language.call 方法，了解如何按顺序应用各种进程。数量不多——基本上是：

doc = nlp.tokenizer(text)
nlp.tagger(doc)
nlp.parser(doc)
nlp.entity(doc)

如果您需要不同的序列，您应该编写自己的函数以不同方式将它们串在一起。

不过，我不确定您的问题是否合理。如果将词性标注器应用于词形还原文本，统计模型可能不会执行得很好。屈折后缀是重要的特征。

Is it possible to do lemmatization independently in spacy?