knn（k-最近邻）在什么维度开始表现不佳？

At what dimensionality does knn (k-nearest neighbors) start to perform poorly?

我知道随着问题维数的增加，kNN 搜索的性能会越来越差。我知道 20 被认为是 kNN 搜索的高维度。我不知道的是，在说 3（我知道 kNN 工作得很好）和 20（我知道 kNN 工作得不太好）之间它真正开始变坏的地方。

假设一棵平衡良好的树，有谁知道平均查询速度与大约 1 到 20 维之间的维度有何关系？

就不同的 kNN 算法产生明显不同的结果而言，我对此很感兴趣，但您可以假设 Scikit Learn 实现作为 kNN 作为问题的基线。

性能在很大程度上取决于您使用的数据类型（以及 scicit-learn 使用的任何索引）。有关简短示例，请参阅 Fig. 32-35 here。在这些示例中，对于强聚类数据集（标记为 CL-P），KD-Trees 的性能比其他一些索引差 100 倍，对于另一个均匀分布的数据集（CU-P），它们几乎相同。

knn（k-最近邻）在什么维度开始表现不佳？

At what dimensionality does knn (k-nearest neighbors) start to perform poorly?

knn

scikit-learn