使用 NLTK (5400) 和 Spacy(5300) 计算句子给出了不同的答案。需要知道为什么吗?

Counting Sentences using NLTK (5400) and Spacy(5300) gives different answers. Need to know why?

我是 NLP 新手。使用 Spacy 和 NLTK 来计算 JSON 文件中的句子,但是这两个答案有很大的不同。我以为答案会是一样的。谁能告诉我一下??或任何对我有帮助的网站 link。请我在这里感到困惑

句子分割和标记化是 NLP 子任务,每个 NLP 库可能有不同的实现,导致不同的错误配置文件。

即使在 spaCy 库中也有不同的方法:最好的结果是通过使用依赖解析器获得的,但也存在更简单的基于规则的 sentencizer 组件,它更快,但通常会犯更多错误(文档 here)。

因为没有实现是 100% 完美的,所以不同的方法和不同的库之间会存在差异。您可以做的是打印方法不一致的情况,手动检查这些情况,并了解哪种方法最适合您的特定领域和文本类型。