KNeighborsClassifierreturns的概率预测方法只有0和1
Probability prediction method of KNeighborsClassifier returns only 0 and 1
谁能告诉我我的代码有什么问题?
为什么我可以使用 LinearRegression 预测鸢尾花数据集的概率,但是 KNeighborsClassifier 给了我 0 或 1 而它应该给我一个像 LinearRegression 那样的结果?
from sklearn.datasets import load_iris
from sklearn import metrics
iris = load_iris()
X = iris.data
y = iris.target
for train_index, test_index in skf:
X_train, X_test = X_total[train_index], X_total[test_index]
y_train, y_test = y_total[train_index], y_total[test_index]
from sklearn.linear_model import LogisticRegression
ln = LogisticRegression()
ln.fit(X_train,y_train)
ln.predict_proba(X_test)[:,1]
array([ 0.18075722, 0.08906078, 0.14693156, 0.10467766,
0.14823032,
0.70361962, 0.65733216, 0.77864636, 0.67203114, 0.68655163,
0.25219798, 0.3863194 , 0.30735105, 0.13963637, 0.28017798])
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=5, algorithm='ball_tree', metric='euclidean')
knn.fit(X_train, y_train)
knn.predict_proba(X_test)[0:10,1]
array([ 0., 0., 0., 0., 0., 1., 1., 1., 1., 1.])
因为KNN的概率概念非常有限。它的估计只是最近邻居中选票的分数。将邻居数量增加到 15 或 100 或决策边界附近的查询点,您将看到更多不同的结果。目前,您的点总是有 5 个相同标签的邻居(因此概率为 0 或 1)。
在这里,我有一个 knn 模型 - model_knn
使用 sklearn
result = {}
model_classes = model_knn.classes_
predicted = model_knn.predict(word_average)
score = model_knn.predict_proba(word_average)
index = np.where(model_classes == predicted[0])[0][0]
result["predicted"] = predicted[0]
result["score"] = score[0][index]
谁能告诉我我的代码有什么问题? 为什么我可以使用 LinearRegression 预测鸢尾花数据集的概率,但是 KNeighborsClassifier 给了我 0 或 1 而它应该给我一个像 LinearRegression 那样的结果?
from sklearn.datasets import load_iris
from sklearn import metrics
iris = load_iris()
X = iris.data
y = iris.target
for train_index, test_index in skf:
X_train, X_test = X_total[train_index], X_total[test_index]
y_train, y_test = y_total[train_index], y_total[test_index]
from sklearn.linear_model import LogisticRegression
ln = LogisticRegression()
ln.fit(X_train,y_train)
ln.predict_proba(X_test)[:,1]
array([ 0.18075722, 0.08906078, 0.14693156, 0.10467766, 0.14823032, 0.70361962, 0.65733216, 0.77864636, 0.67203114, 0.68655163, 0.25219798, 0.3863194 , 0.30735105, 0.13963637, 0.28017798])
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=5, algorithm='ball_tree', metric='euclidean')
knn.fit(X_train, y_train)
knn.predict_proba(X_test)[0:10,1]
array([ 0., 0., 0., 0., 0., 1., 1., 1., 1., 1.])
因为KNN的概率概念非常有限。它的估计只是最近邻居中选票的分数。将邻居数量增加到 15 或 100 或决策边界附近的查询点,您将看到更多不同的结果。目前,您的点总是有 5 个相同标签的邻居(因此概率为 0 或 1)。
在这里,我有一个 knn 模型 - model_knn
使用 sklearn
result = {}
model_classes = model_knn.classes_
predicted = model_knn.predict(word_average)
score = model_knn.predict_proba(word_average)
index = np.where(model_classes == predicted[0])[0][0]
result["predicted"] = predicted[0]
result["score"] = score[0][index]