逻辑回归预测概率

LogisticRegression prediction probability

我目前在多 class 分类问题中使用 scikit-learn 的 LogisticRegression。我决定使用 LogisticRegression，因为我已经阅读了几篇文章，将其描述为一种在预测概率方面经过良好校准的算法 returns.

对于 classifier 的每个结果，我检查其预测概率以及 classified 观察与训练集中具有相同决策的其余示例之间的距离 class。

令我惊讶的是，对于某些结果，即使 class 的预测置信度超过 90%，余弦相似性度量表明给定的示例平均几乎与集合正交训练集中具有相同 class 的示例数。

有人可以提供一些线索来说明为什么会观察到这种差异吗？

我希望对于与具有相同 class 的其余观察结果相距甚远的示例，LogisticRegression 算法会 return 低预测概率。

逻辑回归/class化将提供关于决策边界的结果，但不能保证边界同一侧的点（即属于同一 class）将具有小的余弦距离（甚至是小的欧氏距离）。

考虑 x-y 平面中的点，其中 y=0 以下的所有点都属于一个 class，上面的所有点都属于另一个 class。 (-1000, 1) 和 (1000, 1) 这两个点属于同一个 class 但它们之间的余弦距离比较大。另一方面，点 (1000, 1) 和 (1000, -1) 属于不同的 classes 但具有非常小的余弦距离。

逻辑回归预测概率

LogisticRegression prediction probability

machine-learning

scikit-learn

multiclass-classification