knn(k-最近邻)在什么维度开始表现不佳?
At what dimensionality does knn (k-nearest neighbors) start to perform poorly?
我知道随着问题维数的增加,kNN 搜索的性能会越来越差。我知道 20 被认为是 kNN 搜索的高维度。我不知道的是,在说 3(我知道 kNN 工作得很好)和 20(我知道 kNN 工作得不太好)之间它真正开始变坏的地方。
假设一棵平衡良好的树,有谁知道平均查询速度与大约 1 到 20 维之间的维度有何关系?
就不同的 kNN 算法产生明显不同的结果而言,我对此很感兴趣,但您可以假设 Scikit Learn 实现作为 kNN 作为问题的基线。
性能在很大程度上取决于您使用的数据类型(以及 scicit-learn 使用的任何索引)。
有关简短示例,请参阅 Fig. 32-35 here。在这些示例中,对于强聚类数据集(标记为 CL-P),KD-Trees 的性能比其他一些索引差 100 倍,对于另一个均匀分布的数据集(CU-P),它们几乎相同。
我知道随着问题维数的增加,kNN 搜索的性能会越来越差。我知道 20 被认为是 kNN 搜索的高维度。我不知道的是,在说 3(我知道 kNN 工作得很好)和 20(我知道 kNN 工作得不太好)之间它真正开始变坏的地方。
假设一棵平衡良好的树,有谁知道平均查询速度与大约 1 到 20 维之间的维度有何关系?
就不同的 kNN 算法产生明显不同的结果而言,我对此很感兴趣,但您可以假设 Scikit Learn 实现作为 kNN 作为问题的基线。
性能在很大程度上取决于您使用的数据类型(以及 scicit-learn 使用的任何索引)。 有关简短示例,请参阅 Fig. 32-35 here。在这些示例中,对于强聚类数据集(标记为 CL-P),KD-Trees 的性能比其他一些索引差 100 倍,对于另一个均匀分布的数据集(CU-P),它们几乎相同。