如何在 scikit-learn 中标准化 TF*IDF 或计数?

How to normalize TF*IDF or counts in scikit-learn?

我想检查两个长度不同的文档的余弦相似度(比如一个是一两行,而另一个是 100-200 行)。

为此,我需要一种在 scikit-learn 中规范化 tfidf 或计算矢量化器的方法。

TfidfVectorizer 有一个属性 norm(参见 the docs)来处理这个问题。例如,尝试这样的事情:

vectorizer = TfidfVectorizer(analyzer='word', stop_words='english', norm='l2')

这将归一化向量以解决文档长度的差异。