使用 NLTK (5400) 和 Spacy(5300) 计算句子给出了不同的答案。需要知道为什么吗？

Counting Sentences using NLTK (5400) and Spacy(5300) gives different answers. Need to know why?

我是 NLP 新手。使用 Spacy 和 NLTK 来计算 JSON 文件中的句子，但是这两个答案有很大的不同。我以为答案会是一样的。谁能告诉我一下？？或任何对我有帮助的网站 link。请我在这里感到困惑

句子分割和标记化是 NLP 子任务，每个 NLP 库可能有不同的实现，导致不同的错误配置文件。

即使在 spaCy 库中也有不同的方法：最好的结果是通过使用依赖解析器获得的，但也存在更简单的基于规则的 sentencizer 组件，它更快，但通常会犯更多错误（文档 here）。

因为没有实现是 100% 完美的，所以不同的方法和不同的库之间会存在差异。您可以做的是打印方法不一致的情况，手动检查这些情况，并了解哪种方法最适合您的特定领域和文本类型。