当我们有 CountVectorizer 和 Tfidfvectorizer 时,NLP 中标记化和词形还原的用例是什么

what is use case of Tokenization and Lemmatization in NLP when we have CountVectorizer and Tfidfvectorizer

我正在学习 NLP 并完成了;标记化、词形还原词性和其他基础知识。 我从 sklearn 了解到 CountVectorizer 和 Tfidfvectorizer,它们具有应用标记化、词形还原的内部能力。

所以问题是:

何时我需要使用核心 NLP 活动来获取词汇而不是使用 CountVectorizer 和 Tfidfvectorizer?

Tokenization 和 Lematization 是 NLP 的基本构建块。使用标记化,您可以将字符串分成 tokens/words。标记化取决于文本的语言、文本的形成方式等。例如,对中文文本进行标记化不同于英语,也不同于推文。所以存在不同种类的分词器。

CountVectorizer 和 Tfidfvectorizer 用于矢量化依赖于文本中单词的文本块。所以他们需要一种机制来标记单词,并且他们支持发送我们的标记器的机制(通过作为参数传递的可调用方法)。如果我们不传入任何分词器,它会使用简单的空格分割方式。

查看 CountVectorizer

的文档

tokenizer: callable, default=None

Override the string tokenization step while preserving the preprocessing and n-grams generation steps. Only applies if analyzer == 'word'.

所以他们允许我们传入我们自己的分词器。同样适用于 Leamaization。