相似性度量 scikit-learn 文档分类

similarity measure scikit-learn document classification

我正在使用 scikit-learn 做一些文档分类方面的工作。为此，我在 tf-idf 矩阵中表示我的文档，并将此信息提供给随机森林分类器，效果非常好。我只是想知道分类器使用哪种相似性度量（余弦、欧几里德等）以及如何更改它。未在文档中找到任何参数或信息。

提前致谢！

与大多数监督学习算法一样，随机森林分类器不使用相似性度量，它们直接处理提供给它们的特征。所以决策树是根据你的 tf-idf 向量中的术语构建的。

如果您想使用相似性，则必须为您的文档计算相似性矩阵并将其用作您的特征。