KNN 随机子空间分类器中的邻居数

Number of neighbours in KNN random subspace classifier

我使用 KNN 作为基于随机子空间方法的集成学习器构建了一个分类器模型。

我有三个预测变量，其维度为 541 个样本，我开发了一个优化程序来找到最佳的 k（邻居数）。我选择了最大化分类器 AUC 的 k，其性能是通过 10 折交叉验证计算的。每个弱学习器的最佳 k 的结果是 269（由于类似的优化，结果是 60）。

现在，我的问题是： 269个邻居太多了吗？我相信优化的结果，但我从来没有用过这么多邻居，我担心过拟合。

提前谢谢你，议员

k-NN 中k 值 的选择相当数据相关。我们可以争论更多 一般特征 更小或更大的 k 值选择，但将某个数字指定为 good/bad 不是非常准确的告诉。因此，如果您的 CV 实施是正确的，您可以相信结果并进一步推进它，因为 CV 将为您的具体情况提供 最佳选择.对于更多的一般性讨论，我们可以说这些关于 k-value:

的选择

1- 较小的 k 值选择：较小的 k 值选择可能会提高整体精度并且实施成本较低，但会降低系统的鲁棒性嘈杂的输入。

2- 更大的 k 值选择 : 更大的 k 值选择将使系统对噪声输入更稳健，但执行成本更高且性能更弱决策边界与较小的 k 值相比。

在您的应用程序中选择 k 值时，您始终可以比较这些一般特征。但是，使用像 CV 这样的算法来选择最佳值会给你一个明确的答案。

KNN 随机子空间分类器中的邻居数

Number of neighbours in KNN random subspace classifier

neighbours

knn

cross-validation

ensemble-learning