K 最近邻 Python

K Nearest Neighbor Python

我是数据挖掘的新手 我试图在单独的训练和测试数据集上实施 KNN 分类器。我看到的所有教程都使用 train_test_split 方法来拆分数据集,而我已经将数据集拆分为训练和测试。如何分配目标变量?

我假设你的 test 数据被标记了(即逻辑上分为 test_X 和 test_y,你会用它来测试你的模型的性能在 train 数据上训练。

  1. 将训练数据加载到 (train_X, train_y) 并将测试数据加载到 (test_X, test_y)

  2. 使用训练数据训练您的模型

from sklearn.neighbors import KNeighborsClassifier
knn_clf = KNeighborsClassifier()
knn_clf.fit(train_X, train_y)
  1. 根据测试数据预测
y_pred = model.predict(test_X)
  1. 检查预测的准确性
import numpy as np
accuracy = np.mean(test_y == y_pred)