如何在 scikit-learn 中标准化 TF*IDF 或计数?
How to normalize TF*IDF or counts in scikit-learn?
我想检查两个长度不同的文档的余弦相似度(比如一个是一两行,而另一个是 100-200 行)。
为此,我需要一种在 scikit-learn 中规范化 tfidf 或计算矢量化器的方法。
TfidfVectorizer 有一个属性 norm
(参见 the docs)来处理这个问题。例如,尝试这样的事情:
vectorizer = TfidfVectorizer(analyzer='word', stop_words='english', norm='l2')
这将归一化向量以解决文档长度的差异。
我想检查两个长度不同的文档的余弦相似度(比如一个是一两行,而另一个是 100-200 行)。
为此,我需要一种在 scikit-learn 中规范化 tfidf 或计算矢量化器的方法。
TfidfVectorizer 有一个属性 norm
(参见 the docs)来处理这个问题。例如,尝试这样的事情:
vectorizer = TfidfVectorizer(analyzer='word', stop_words='english', norm='l2')
这将归一化向量以解决文档长度的差异。