KNN 随机子空间分类器中的邻居数

Number of neighbours in KNN random subspace classifier

我使用 KNN 作为基于随机子空间方法的集成学习器构建了一个分类器模型。

我有三个预测变量,其维度为 541 个样本,我开发了一个优化程序来找到最佳的 k(邻居数)。 我选择了最大化分类器 AUC 的 k,其性能是通过 10 折交叉验证计算的。 每个弱学习器的最佳 k 的结果是 269(由于类似的优化,结果是 60)。

现在,我的问题是: 269个邻居太多了吗?我相信优化的结果,但我从来没有用过这么多邻居,我担心过拟合。

提前谢谢你, 议员

k-NN 中k 值 的选择相当数据相关。我们可以争论更多 一般特征 更小或更大的 k 值选择,但将某个数字指定为 good/bad 不是非常准确的告诉。因此,如果您的 CV 实施是正确的,您可以相信结果并进一步推进它,因为 CV 将为您的具体情况提供 最佳选择.对于更多的一般性讨论,我们可以说这些关于 k-value:

的选择

1- 较小的 k 值选择:较小的 k 值选择可能会提高整体精度并且实施成本较低,但会降低系统的鲁棒性嘈杂的输入。

2- 更大的 k 值选择 : 更大的 k 值选择将使系统对噪声输入更稳健,但执行成本更高且性能更弱决策边界与较小的 k 值相比。

在您的应用程序中选择 k 值时,您始终可以比较这些一般特征。但是,使用像 CV 这样的算法来选择最佳值会给你一个明确的答案。