试图找出数据框中一列与另一列的相似程度

Trying to find how similar one column is to another in dataframe

我正在尝试计算准确率。

我有一个包含大量数据列的 pandas 数据框。

对于每个客户,我都有一列预测流失率和一列真实流失率。

有没有办法计算两列之间的准确性指标和其他指标?两列都是二进制的,0 表示没有流失,1 表示流失。

显然,您可以通过多种方式衡量预测与已知答案的准确性。既然你用机器学习和 python 标记了它,我建议使用混淆矩阵(又名错误矩阵)作为第一遍。 scikit-learn python 库有一个你可以使用的模块:

from sklearn.metrics import confusion_matrix
y_true = ...
y_pred = ...
confusion_matrix( y_true, y_pred )

来源:https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html